Fugu-MT 論文翻訳(概要): Multimodal Adaptive Retrieval Augmented Generation through Internal Representation Learning

論文の概要: Multimodal Adaptive Retrieval Augmented Generation through Internal Representation Learning

arxiv url: http://arxiv.org/abs/2603.00511v1
Date: Sat, 28 Feb 2026 07:17:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.234643
Title: Multimodal Adaptive Retrieval Augmented Generation through Internal Representation Learning
Title（参考訳）: 内部表現学習によるマルチモーダル適応検索生成
Authors: Ruoshuang Du, Xin Sun, Qiang Liu, Bowen Song, Zhongqi Chen, Weiqiang Wang, Liang Wang,
Abstract要約: 視覚的質問応答システムは幻覚による信頼性の問題に直面する。本稿では、モデルの内部知識の信頼性を評価し、抽出した外部情報を生成プロセスに組み込むかどうかを決定するマルチモーダル適応RAG(MMA-RAG)を提案する。
参考スコア（独自算出の注目度）: 24.97734743062701
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual Question Answering systems face reliability issues due to hallucinations, where models generate answers misaligned with visual input or factual knowledge. While Retrieval Augmented Generation frameworks mitigate this issue by incorporating external knowledge, static retrieval often introduces irrelevant or conflicting content, particularly in visual RAG settings where visually similar but semantically incorrect evidence may be retrieved. To address this, we propose Multimodal Adaptive RAG (MMA-RAG), which dynamically assesses the confidence in the internal knowledge of the model to decide whether to incorporate the retrieved external information into the generation process. Central to MMA-RAG is a decision classifier trained through a layer-wise analysis, which leverages joint internal visual and textual representations to guide the use of reverse image retrieval. Experiments demonstrated that the model achieves a significant improvement in response performance in three VQA datasets. Meanwhile, ablation studies highlighted the importance of internal representations in adaptive retrieval decisions. In general, the experimental results demonstrated that MMA-RAG effectively balances external knowledge utilization and inference robustness in diverse multimodal scenarios.
Abstract（参考訳）: 視覚質問応答システムは幻覚による信頼性の問題に直面する。 Retrieval Augmented Generationフレームワークは、外部の知識を取り入れることでこの問題を軽減するが、静的検索は、特に視覚的に類似しているが意味的に不正確な証拠を検索する視覚的RAG設定において、無関係または矛盾するコンテンツをしばしば導入する。そこで本研究では、モデルの内部知識の信頼性を動的に評価し、抽出した外部情報を生成プロセスに組み込むかどうかを決定するマルチモーダル適応RAG(MMA-RAG)を提案する。 MMA-RAG の中心は、レイヤワイズ分析によって訓練された決定分類器であり、内部の視覚的およびテキスト的表現を利用して、逆画像検索の使用をガイドする。実験により、3つのVQAデータセットの応答性能が大幅に向上した。一方、アブレーション研究は適応的検索決定における内部表現の重要性を強調した。実験の結果,MMA-RAGは多様なマルチモーダルシナリオにおいて,外部知識利用と推論の堅牢性を効果的にバランスさせることが実証された。

関連論文リスト

Dynamic Context Selection for Retrieval-Augmented Generation: Mitigating Distractors and Positional Bias [1.7674345486888503]
Retrieval Augmented Generation (RAG)は,大規模コーパスから抽出した外部知識を組み込むことで,言語モデルの性能を向上させる。標準的なRAGシステムは、関連する情報を見逃したり、意味的に無関係な経路を導入することができる固定トップk検索戦略に依存している。本稿では,クエリ固有の情報要求に基づいて検索する文書の最適個数を動的に予測するコンテキストサイズ分類器を提案する。
論文参考訳（メタデータ） (2025-12-16T11:30:40Z)
ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。 ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文参考訳（メタデータ） (2025-11-27T19:01:02Z)
RAG-IGBench: Innovative Evaluation for RAG-based Interleaved Generation in Open-domain Question Answering [50.42577862494645]
本稿では,RAG-IG(Retrieval-Augmented Generation)に基づくインターリーブドジェネレーション(Interleaved Generation)の課題を評価するためのベンチマークであるRAG-IGBenchを提案する。 RAG-IGは、MLLM(Multimodal large language model)と検索機構を統合し、モデルがコヒーレントなマルチモーダルコンテンツを生成するための外部画像テキスト情報にアクセスできるようにする。
論文参考訳（メタデータ） (2025-10-11T03:06:39Z)
Retrieval Feedback Memory Enhancement Large Model Retrieval Generation Method [10.654167904580838]
大規模言語モデル(LLM)は、制約付きパラメトリック知識や高いリトレーニングコストといった固有の制約に直面します。検索フィードバックとメモリ検索拡張生成(RFM-RAG)を提案する。 RFM-RAGは, 動的エビデンスプールを構築することにより, 従来手法のステートレス検索をステートフルな継続的知識管理に変換する。
論文参考訳（メタデータ） (2025-08-25T10:13:02Z)
From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems [6.762635083456022]
RAGに基づくシステムにおいて,エンティティコアが文書検索と生成性能にどのように影響するかを検討する。コア参照の解決により検索効率が向上し,質問応答性能(QA)が向上することが実証された。本研究の目的は、知識集約型AIアプリケーションにおける検索と生成を改善するためのガイダンスを提供することである。
論文参考訳（メタデータ） (2025-07-10T15:26:59Z)
Investigating the Robustness of Retrieval-Augmented Generation at the Query Level [4.3028340012580975]
推論中に外部知識を動的に組み込むソリューションとして、検索拡張生成(RAG)が提案されている。その約束にもかかわらず、RAGシステムは実際的な課題に直面し、特に、正確な検索のために入力クエリの品質に強く依存する。
論文参考訳（メタデータ） (2025-07-09T15:39:17Z)
Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文参考訳（メタデータ） (2025-04-07T06:55:15Z)
ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。本研究では,不信感関連FFNの活性化を抑制することにより,文脈的忠実度を向上させるフレームワークであるParametric Knowledge Mutingを提案する。実験結果から,ParamMuteはCoFaithfulQAと確立されたConFiQAベンチマークの両方の信頼度を大幅に向上し,パラメトリックメモリへの依存度を大幅に低下させることが示された。
論文参考訳（メタデータ） (2025-02-21T15:50:41Z)
Open-Ended and Knowledge-Intensive Video Question Answering [20.256081440725353]
知識集約型ビデオ質問応答 (KI-VideoQA) を多モード検索拡張世代のレンズを用いて検討する。本稿では,最先端の検索モデルと視覚言語モデルを用いて,様々な検索拡張手法について検討する。我々は、KnowIT VQAデータセットにおいて、複数の選択質問に対する精度を17.5%向上させる。
論文参考訳（メタデータ） (2025-02-17T12:40:35Z)
MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.16022378880376]
MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。 MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
論文参考訳（メタデータ） (2024-10-10T17:55:02Z)
KnowPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models [14.057527352653787]
本稿では,適応的な知識選択を実現することを目的とした,知識認識型参照最適化戦略であるKnowPOを提案する。 KnowPOは,従来の知識衝突処理手法を37%以上上回る性能を示した。
論文参考訳（メタデータ） (2024-08-06T16:55:54Z)
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2023-10-17T18:18:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。