論文の概要: Hierarchical Vision-Language Reasoning for Multimodal Multiple-Choice Question Answering
- arxiv url: http://arxiv.org/abs/2508.16148v1
- Date: Fri, 22 Aug 2025 07:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.285232
- Title: Hierarchical Vision-Language Reasoning for Multimodal Multiple-Choice Question Answering
- Title(参考訳): マルチモーダルなマルチコース質問応答のための階層的視覚言語推論
- Authors: Ao Zhou, Zebo Gu, Tenghao Sun, Jiawen Chen, Mingsheng Tu, Zifeng Cheng, Yafeng Yin, Zhiwei Jiang, Qing Gu,
- Abstract要約: MLLM(Multimodal Large Language Models)は、視覚質問応答(VQA)タスクにおいて、目覚ましいマルチモーダル理解能力を示す。
現在の主流モデルは、英語のトレーニングデータに対する強い偏りに悩まされており、日本語や他の言語のシナリオに対して最適なパフォーマンスをもたらす。
本稿では,マルチモーダルな階層的推論機構とColqwen最適化検索手法を組み合わせた日本語PDF文書理解フレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.298532858905782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable multimodal understanding capabilities in Visual Question Answering (VQA) tasks by integrating visual and textual features. However, under the challenging ten-choice question evaluation paradigm, existing methods still exhibit significant limitations when processing PDF documents with complex layouts and lengthy content. Notably, current mainstream models suffer from a strong bias toward English training data, resulting in suboptimal performance for Japanese and other language scenarios. To address these challenges, this paper proposes a novel Japanese PDF document understanding framework that combines multimodal hierarchical reasoning mechanisms with Colqwen-optimized retrieval methods, while innovatively introducing a semantic verification strategy through sub-question decomposition. Experimental results demonstrate that our framework not only significantly enhances the model's deep semantic parsing capability for complex documents, but also exhibits superior robustness in practical application scenarios.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚的およびテキスト的特徴を統合することで、視覚質問応答(VQA)タスクにおいて顕著なマルチモーダル理解能力を示す。
しかし, 従来の手法では, 複雑なレイアウトと長文を含むPDF文書の処理には, 依然として大きな制約がある。
特に、現在の主流モデルは、英語のトレーニングデータに対する強い偏見に悩まされており、日本語や他の言語のシナリオに最適なパフォーマンスをもたらす。
これらの課題に対処するため,本研究では,マルチモーダル階層的推論機構とコルクウェン最適化検索手法を組み合わせた日本語PDF文書理解フレームワークを提案するとともに,サブクエスト分解による意味的検証戦略を革新的に導入する。
実験結果から,本フレームワークは複雑な文書に対するモデルの深い意味解析能力を著しく向上するだけでなく,実用的なアプリケーションシナリオにおいて優れた堅牢性を示すことが示された。
関連論文リスト
- DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding [66.07724324530844]
動的推論時間推論のためのルールベースの強化学習フレームワークであるDocThinkerを提案する。
本手法は破滅的な忘れ込みを軽減し,適応性と透明性を両立させる。
本研究は,MLLMに基づく文書理解における説明可能性と適応性を高めるための強力な代替手段として,RLに注目した。
論文 参考訳(メタデータ) (2025-08-12T03:06:55Z) - Structured Attention Matters to Multimodal LLMs in Document Understanding [52.37530640460363]
入力形式が文書理解性能に与える影響について検討する。
生のOCRテキストはMLLMの性能を向上するのではなく、しばしば機能不全であることがわかった。
本稿では,LaTexパラダイムを用いて文書要素を符号化する構造保存手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T07:16:18Z) - Beyond Retrieval: Joint Supervision and Multimodal Document Ranking for Textbook Question Answering [3.6799953119508735]
本稿では,意味表現を拡張化するためのメカニズムを導入することで,マルチモーダルな教科書質問応答手法を提案する。
我々のモデルであるJETRTQA(Joint Embedding Training With Ranking Supervision for Textbook Question Answering)は、検索ジェネレータアーキテクチャ上に構築されたマルチモーダル学習フレームワークである。
本手法をCK12-QAデータセット上で評価し,情報化文書と無関係文書の識別を著しく改善することを示す。
論文 参考訳(メタデータ) (2025-05-17T13:23:54Z) - A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model [9.224965304457708]
本稿では,新しいマルチモーダル検索フレームワークであるMLLM (CUE-M) について述べる。
画像コンテキストの強化、インテントの洗練、コンテキストクエリ生成、外部APIの統合、関連ベースのフィルタリングなどが含まれている。
知識に基づくVQAと安全性に関する実単語データセットと公開ベンチマークの実験は、CUE-Mがベースラインを上回り、新しい最先端の結果を確立することを示した。
論文 参考訳(メタデータ) (2024-11-19T07:16:48Z) - SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization [49.931663904599205]
研究者は、インコンテキスト学習機能を備えた大規模マルチモーダルモデルを開発する技術を開発した。
既存のLMMは、マルチモーダルなデモンストレーションで視覚的コンテキストを効果的に活用せず、単にテキストパターンに従う。
本稿では,マルチモーダルな実演構築の伝統的なパラダイムを破るために,記号記述直接選好最適化(SymDPO)を提案する。
論文 参考訳(メタデータ) (2024-11-17T08:29:14Z) - Multi-modal Latent Space Learning for Chain-of-Thought Reasoning in
Language Models [25.058162782167503]
CoT推論(Chain-of-thinkt)は、複雑なタスクの解決と質問に答えるための言語モデルにおいて、素晴らしいパフォーマンスを示している。
本稿では,言語思考に整合した効果的な画像特徴を生成するために,拡散過程による潜時空間学習を利用するマルチモーダルCoT推論の新しい手法を提案する。
提案手法は画像特徴とテキスト表現を深いレベルで融合し,マルチモーダルCoTの複雑な推論能力を向上させる。
論文 参考訳(メタデータ) (2023-12-14T09:13:09Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。