論文の概要: Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger
- arxiv url: http://arxiv.org/abs/2506.07785v1
- Date: Mon, 09 Jun 2025 14:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.987963
- Title: Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger
- Title(参考訳): 木探索による大規模視覚言語モデルの構築
- Authors: Qi Yang, Chenghao Zhang, Lubin Fan, Kun Ding, Jieping Ye, Shiming Xiang,
- Abstract要約: 大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。
既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。
我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
- 参考スコア(独自算出の注目度): 51.01841635655944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Vision Language Models (LVLMs) have significantly improved performance in Visual Question Answering (VQA) tasks through multimodal Retrieval-Augmented Generation (RAG). However, existing methods still face challenges, such as the scarcity of knowledge with reasoning examples and erratic responses from retrieved knowledge. To address these issues, in this study, we propose a multimodal RAG framework, termed RCTS, which enhances LVLMs by constructing a Reasoning Context-enriched knowledge base and a Tree Search re-ranking method. Specifically, we introduce a self-consistent evaluation mechanism to enrich the knowledge base with intrinsic reasoning patterns. We further propose a Monte Carlo Tree Search with Heuristic Rewards (MCTS-HR) to prioritize the most relevant examples. This ensures that LVLMs can leverage high-quality contextual reasoning for better and more consistent responses. Extensive experiments demonstrate that our framework achieves state-of-the-art performance on multiple VQA datasets, significantly outperforming In-Context Learning (ICL) and Vanilla-RAG methods. It highlights the effectiveness of our knowledge base and re-ranking method in improving LVLMs. Our code is available at https://github.com/yannqi/RCTS-RAG.
- Abstract(参考訳): 近年のLVLM(Large Vision Language Models)の進歩により,マルチモーダル検索・拡張生成(RAG)による視覚質問応答(VQA)タスクの性能が大幅に向上した。
しかし、既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。
これらの課題に対処するため,我々はRCTSと呼ばれるマルチモーダルRAGフレームワークを提案し,Reasoning Context-enriched knowledge base と Tree Search re-level method を構築して LVLM を強化する。
具体的には,知識ベースを本質的な推論パターンで強化する自己整合性評価機構を導入する。
さらに,最も関係の深い例を優先するために,MCTS-HRを用いたモンテカルロ木探索を提案する。
これにより、LVLMはより良い一貫性のある応答のために高品質なコンテキスト推論を利用できる。
大規模な実験により、我々のフレームワークは複数のVQAデータセット上で最先端のパフォーマンスを達成し、インコンテキスト学習(ICL)とVanilla-RAGメソッドを大幅に上回った。
本研究は,LVLMの改良における知識ベースと再評価手法の有効性を強調した。
私たちのコードはhttps://github.com/yannqi/RCTS-RAG.comで公開されています。
関連論文リスト
- Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。
我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文 参考訳(メタデータ) (2025-04-07T06:55:15Z) - Self-Routing RAG: Binding Selective Retrieval with Knowledge Verbalization [97.72503890388866]
本稿では,選択的検索と知識の言語化を結合する新しいフレームワークであるSelf-Routing RAG(SR-RAG)を提案する。
SR-RAGは、LLMが外部検索と独自のパラメトリック知識の言語化を動的に決定できるようにする。
近接探索による動的知識源推定を導入し,知識源決定の精度を向上させる。
論文 参考訳(メタデータ) (2025-04-01T17:59:30Z) - Memory-enhanced Retrieval Augmentation for Long Video Understanding [57.371543819761555]
我々は,ヒトの認知記憶にインスパイアされた新しいRAGベースのLVUアプローチ,MemVidを紹介した。
提案手法は,全体的映像情報の記憶,メモリに基づくタスクの情報要求の推論,情報要求に基づくクリティカルモーメントの検索,最終回答を生成するための検索モーメントの抽出という,4つの基本的なステップで機能する。
論文 参考訳(メタデータ) (2025-03-12T08:23:32Z) - Prompting Large Language Models with Rationale Heuristics for Knowledge-based Visual Question Answering [6.745948705869626]
我々は,先行手法がLarge Language Models (LLM) の容量を十分に活性化していないことを論じる。
本稿では,知識に基づく VQA のための LLM と Rationale Heuristics を併用した PLRH というフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-22T09:14:35Z) - RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z) - CoTKR: Chain-of-Thought Enhanced Knowledge Rewriting for Complex Knowledge Graph Question Answering [33.89497991289916]
そこで本研究では,新たな書込み手法であるCoTKRを提案し,推論トレースとそれに対応する知識をインターリーブ方式で生成する。
我々は,様々な知識グラフ質問回答 (KGQA) ベンチマークを用いて,様々な言語モデル (LLM) を用いて実験を行う。
論文 参考訳(メタデータ) (2024-09-29T16:08:45Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。