論文の概要: Multimodal Iterative RAG for Knowledge-Intensive Visual Question Answering
- arxiv url: http://arxiv.org/abs/2509.00798v4
- Date: Mon, 29 Sep 2025 13:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.492833
- Title: Multimodal Iterative RAG for Knowledge-Intensive Visual Question Answering
- Title(参考訳): 知識集約型視覚質問応答のためのマルチモーダル反復RAG
- Authors: Changin Choi, Wonseok Lee, Jungmin Ko, Wonjong Rhee,
- Abstract要約: MI-RAGは、推論を利用して検索を強化し、知識合成を取り入れて理解を深めるフレームワークである。
Encyclopedic VQA、InfoSeek、OK-VQAといった挑戦的なベンチマークの実験は、MI-RAGが検索リコールと回答精度の両方を著しく改善していることを示している。
- 参考スコア(独自算出の注目度): 8.830228556155673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Multimodal Large Language Models~(MLLMs) have significantly enhanced the ability of these models in multimodal understanding and reasoning. However, the performance of MLLMs for knowledge-intensive visual questions, which require external knowledge beyond the visual content of an image, still remains limited. While Retrieval-Augmented Generation (RAG) has become a promising solution to provide models with external knowledge, its conventional single-pass framework often fails to gather sufficient knowledge. To overcome this limitation, we propose MI-RAG, a Multimodal Iterative RAG framework that leverages reasoning to enhance retrieval and incorporates knowledge synthesis to refine its understanding. At each iteration, the model formulates a reasoning-guided multi-query to explore multiple facets of knowledge. Subsequently, these queries drive a joint search across heterogeneous knowledge bases, retrieving diverse knowledge. This retrieved knowledge is then synthesized to enrich the reasoning record, progressively deepening the model's understanding. Experiments on challenging benchmarks, including Encyclopedic VQA, InfoSeek, and OK-VQA, show that MI-RAG significantly improves both retrieval recall and answer accuracy, establishing a scalable approach for compositional reasoning in knowledge-intensive VQA.
- Abstract(参考訳): マルチモーダル大言語モデル~(MLLM)の最近の進歩は、多モーダル理解と推論におけるこれらのモデルの能力を大幅に向上させてきた。
しかし、画像の視覚内容以外の外部知識を必要とする知識集約型視覚質問に対するMLLMの性能は依然として限られている。
Retrieval-Augmented Generation (RAG) は、モデルに外部知識を提供するための有望なソリューションとなっているが、従来のシングルパスフレームワークは十分な知識を集めるのに失敗することが多い。
この制限を克服するため,多モーダル反復RAGフレームワークであるMI-RAGを提案する。
各イテレーションにおいて、モデルは推論誘導型マルチクエリを定式化し、複数の知識の面を探索する。
その後、これらのクエリは異種知識ベースの共同検索を駆動し、多様な知識を検索する。
この抽出された知識は、推論記録を豊かにするために合成され、徐々にモデルの理解を深める。
Encyclopedic VQA、InfoSeek、OK-VQAといった挑戦的なベンチマークの実験では、MI-RAGは検索リコールと解答精度の両方を大幅に改善し、知識集約型VQAにおける構成的推論のためのスケーラブルなアプローチを確立している。
関連論文リスト
- mKG-RAG: Multimodal Knowledge Graph-Enhanced RAG for Visual Question Answering [29.5761347590239]
Retrieval-Augmented Generation (RAG) はマルチモーダル大言語モデル(MLLM)の内部知識を拡張するために提案されている。
本稿では,知識集約型VQAタスクのためのマルチモーダルKGに基づく,新しいマルチモーダル知識拡張生成フレームワーク(mKG-RAG)を提案する。
論文 参考訳(メタデータ) (2025-08-07T12:22:50Z) - DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。
既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。
我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T14:00:57Z) - CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG [53.950029990391066]
マルチモーダルRAG(CoRe-MMRAG)のためのクロスソース知識textbfReconciliation
本稿では,知識ソース間の不整合を効果的に解決する新しいエンドツーエンドフレームワークを提案する。
KB-VQAベンチマークの実験では、CoRe-MMRAGはベースライン法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-06-03T07:32:40Z) - OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval [17.75545831558775]
知識に基づく視覚質問応答(KB-VQA)に対処するための視覚言語検索拡張生成(RAG)が有効なアプローチとなっている
本稿では,複数の粒度とモダリティを調和させて有効性を向上する,粗大で微細なマルチステップ検索を特徴とするマルチモーダルRAGシステムを提案する。
論文 参考訳(メタデータ) (2025-05-10T14:24:41Z) - Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。
我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文 参考訳(メタデータ) (2025-04-07T06:55:15Z) - A Survey of Multimodal Retrieval-Augmented Generation [3.9616308910160445]
MRAG(Multimodal Retrieval-Augmented Generation)は、マルチモーダルデータ(テキスト、画像、ビデオ)を検索および生成プロセスに統合することにより、大規模言語モデル(LLM)を強化する。
近年の研究では、MRAGは視覚とテキストの両方の理解を必要とするシナリオにおいて、従来の検索・拡張生成(RAG)よりも優れていることが示されている。
論文 参考訳(メタデータ) (2025-03-26T02:43:09Z) - mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA [78.45521005703958]
マルチモーダル検索拡張生成(mRAG)はMLLMに包括的で最新の知識を提供するために自然に導入されている。
我々は、適応的検索と有用な情報ローカライゼーションを実現する textbfRetrieval-textbfReftextbfAugmented textbfGeneration (mR$2$AG) という新しいフレームワークを提案する。
mR$2$AG は INFOSEEK と Encyclopedic-VQA の最先端MLLM を著しく上回る
論文 参考訳(メタデータ) (2024-11-22T16:15:50Z) - Unlocking Multi-View Insights in Knowledge-Dense Retrieval-Augmented Generation [10.431782420943764]
本稿では,知識密度ドメインに適した新しいマルチビューRAGフレームワークであるMVRAGを紹介する。
法的および医学的事例検索実験は、リコール率と精度を著しく改善した。
論文 参考訳(メタデータ) (2024-04-19T13:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。