論文の概要: ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering
- arxiv url: http://arxiv.org/abs/2511.22715v1
- Date: Thu, 27 Nov 2025 19:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.698027
- Title: ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering
- Title(参考訳): ReAG:知識に基づく視覚質問応答のための推論型生成
- Authors: Alberto Compagnoni, Marco Morini, Sara Sarto, Federico Cocchi, Davide Caffagni, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara,
- Abstract要約: ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
- 参考スコア(独自算出の注目度): 54.72902502486611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown impressive capabilities in jointly understanding text, images, and videos, often evaluated via Visual Question Answering (VQA). However, even state-of-the-art MLLMs struggle with domain-specific or knowledge-intensive queries, where relevant information is underrepresented in pre-training data. Knowledge-based VQA (KB-VQA) addresses this by retrieving external documents to condition answer generation, but current retrieval-augmented approaches suffer from low precision, noisy passages, and limited reasoning. To address this, we propose ReAG, a novel Reasoning-Augmented Multimodal RAG approach that combines coarse- and fine-grained retrieval with a critic model that filters irrelevant passages, ensuring high-quality additional context. The model follows a multi-stage training strategy leveraging reinforcement learning to enhance reasoning over retrieved content, while supervised fine-tuning serves only as a cold start. Extensive experiments on Encyclopedic-VQA and InfoSeek demonstrate that ReAG significantly outperforms prior methods, improving answer accuracy and providing interpretable reasoning grounded in retrieved evidence. Our source code is publicly available at: https://github.com/aimagelab/ReAG.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、テキスト、画像、動画を共同で理解する際、視覚的質問応答(VQA)によってしばしば評価される印象的な能力を示す。
しかし、最先端のMLLMでさえ、事前学習データに関連情報が不足しているドメイン固有または知識集約的なクエリに苦しむ。
知識ベースのVQA(KB-VQA)は、外部文書を条件付き回答生成に検索することでこの問題に対処するが、現在の検索強化アプローチは、低い精度、ノイズのある通過、限られた推論に悩まされている。
そこで本稿では,粗い検索と細粒度検索を組み合わせたReasoning-Augmented Multimodal RAGアプローチであるReAGを提案する。
このモデルは、強化学習を活用して、検索したコンテンツに対する推論を強化するマルチステージトレーニング戦略に従い、教師付き微調整は冷戦開始のみに機能する。
Encyclopedic-VQA と InfoSeek の広範囲にわたる実験により、ReAG は先行手法を著しく上回り、解答精度を向上し、得られた証拠に基づいて解釈可能な推論を提供することを示した。
私たちのソースコードは、https://github.com/aimagelab/ReAG.comで公開されています。
関連論文リスト
- KERAG: Knowledge-Enhanced Retrieval-Augmented Generation for Advanced Question Answering [26.051374461832964]
検索型拡張生成(RAG)は大規模言語モデル(LLM)における幻覚を緩和する
我々はKGをベースとした新しいRAGパイプラインであるKERAGについて述べる。
実験の結果、KERAGは最先端のソリューションを約7%上回り、GPT-4o(Tool)を10-21%上回ることがわかった。
論文 参考訳(メタデータ) (2025-09-05T00:06:00Z) - DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。
既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。
我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T14:00:57Z) - Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。
本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:56:59Z) - Fine-Grained Knowledge Structuring and Retrieval for Visual Question Answering [12.622529359686016]
VQA(Visual Question Answering)は、画像からの情報を活用することで、自然言語の質問に対する回答を提供することに焦点を当てている。
外部知識ベース(KB)を活用する検索拡張世代(RAG)が,将来性のあるアプローチとして出現する。
まず,マルチモーダルデータ断片からなるきめ細かい知識ユニットを紹介する。
第2に,細粒度検索をMLLMとシームレスに統合する知識単位検索拡張生成フレームワーク(KU-RAG)を提案する。
論文 参考訳(メタデータ) (2025-02-28T11:25:38Z) - Systematic Knowledge Injection into Large Language Models via Diverse Augmentation for Domain-Specific RAG [24.660769275714685]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) にドメイン知識を組み込む重要な手法として登場した。
本稿では,学習データを2つの方法で強化することで,微調整プロセスを大幅に強化する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T12:39:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。