論文の概要: AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction
- arxiv url: http://arxiv.org/abs/2603.05551v1
- Date: Thu, 05 Mar 2026 02:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.187898
- Title: AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction
- Title(参考訳): AutothinkRAG:画像-テキストインタラクションのための検索強化推論の複雑さ認識制御
- Authors: Jiashu Yang, Chi Zhang, Abudukelimu Wuerkaixi, Xuxin Cheng, Cao Liu, Ke Zeng, Xu Jia, Xunliang Cai,
- Abstract要約: 複数のモデルの機能を相乗化することにより,複雑な文書の理解を深めるフレームワークを提案する。
具体的には、クエリの難易度の分析に基づいて、推論経路を割り当てるクエリ複雑度ルータを提案する。
- 参考スコア(独自算出の注目度): 43.86866325776962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information-intensive Document Question Answering (DocQA) is often constrained by long contexts and information overload, which hinders Vision-Language Models (VLMs) from performing precise direct reasoning. Although multimodal GraphRAG has achieved preliminary breakthroughs, existing frameworks still face dual challenges: (1) the necessity of large-scale models for handling queries of diverse complexities and (2) the inherent reasoning bottlenecks of end-to-end VLMs. To address these issues, we propose AutoThinkRAG, a framework that enhances the understanding of complex documents by synergizing the capabilities of multiple models. Specifically, we introduce a Query Complexity Router to allocate reasoning paths based on the analysis of query difficulty. Furthermore, to overcome the reasoning boundaries of VLM, we propose a functional decoupling architecture: a small-scale VLM serves as a high-fidelity visual interpreter to transform query-relevant visual cues into textual representations, which are subsequently processed by an LLM for logical deduction and synthesis. Extensive experiments on DocBench and MMLongBench demonstrate that AutoThinkRAG significantly reduces inference costs while achieving new state-of-the-art performance. Further ablation studies verifies the effectiveness of our proposed method.
- Abstract(参考訳): 情報集約型文書質問回答(DocQA)は、しばしば長いコンテキストと情報過負荷によって制約され、視覚言語モデル(VLM)が正確な直接的な推論を行うのを妨げる。
マルチモーダルなGraphRAGは、先進的なブレークスルーを達成しているが、既存のフレームワークは、(1)様々な複雑さのクエリを扱うための大規模モデルの必要性、(2)エンドツーエンドのVLMの固有の推論ボトルネックといった、2つの課題に直面している。
これらの問題に対処するために,複数のモデルの機能を相乗化することにより,複雑な文書の理解を深めるフレームワークであるAutoThinkRAGを提案する。
具体的には、クエリの難易度の分析に基づいて、推論経路を割り当てるクエリ複雑度ルータを提案する。
さらに、VLMの推論境界を克服するために、小型のVLMは、クエリ関連ビジュアルキューをテキスト表現に変換するための高忠実なビジュアルインタプリタとして機能し、論理的推論と合成のためにLLMによって処理される機能的デカップリングアーキテクチャを提案する。
DocBenchとMMLongBenchの大規模な実験は、AutoThinkRAGが新しい最先端性能を実現しつつ、推論コストを大幅に削減することを示した。
さらなるアブレーション研究により,提案手法の有効性が検証された。
関連論文リスト
- Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method [96.63801368613177]
本稿では,記述的理解から構造化多段階推論への映像異常解析を向上するタスクを提案する。
我々は8,641本のビデオからなる新しいデータセットを提示し、合計5万本以上のサンプルを作成し、ビデオ異常理解のための最大のデータセットの1つである。
提案したタスクとデータセットに基づいて,適応的階層的推論とリスク認識意思決定をサポートする,Vad-R1-Plusと呼ばれるエンドツーエンドのMLLMベースのVARモデルを開発する。
論文 参考訳(メタデータ) (2026-01-15T08:09:04Z) - Beyond the Black Box: Demystifying Multi-Turn LLM Reasoning with VISTA [20.43574322731524]
VISTAは、マルチターン推論タスクにおけるテキスト分析のためのWebベースのVisual Interactive Systemである。
ユーザーは、コンテキストがモデル決定に与える影響を可視化し、対話的に会話履歴を変更することができる。
プラットフォームはオープンソースで、カスタムベンチマークとローカルモデルを簡単に統合できる。
論文 参考訳(メタデータ) (2025-11-13T10:48:20Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Eliciting Critical Reasoning in Retrieval-Augmented Language Models via Contrastive Explanations [4.697267141773321]
Retrieval-augmented Generation (RAG) は、よりリッチな現実的コンテキストに体系的にアクセスする大規模言語モデル(LLM)をサポートするために、現代のNLPにおいて重要なメカニズムとして登場した。
近年の研究では、LLMはRAGに基づくインコンテキスト情報(誤った推論や幻覚につながる可能性のある制限)を批判的に分析するのに苦慮していることが示されている。
本稿では,RAGにおける批判的推論を,対照的な説明を通じてどのように引き起こすかを検討する。
論文 参考訳(メタデータ) (2024-10-30T10:11:53Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。