論文の概要: Multimodal Iterative RAG for Knowledge Visual Question Answering
- arxiv url: http://arxiv.org/abs/2509.00798v2
- Date: Wed, 03 Sep 2025 14:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.399366
- Title: Multimodal Iterative RAG for Knowledge Visual Question Answering
- Title(参考訳): 知識ビジュアル質問応答のためのマルチモーダル反復RAG
- Authors: Changin Choi, Wonseok Lee, Jungmin Ko, Wonjong Rhee,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、モデルに外部知識を提供するための有望なソリューションとなっている。
提案するMI-RAG(MI-RAG)は,リテラルを利用したリテラルの強化とリテラル更新を行うマルチモーダル反復RAGフレームワークである。
Encyclopedic VQA、InfoSeek、OK-VQAといった挑戦的なベンチマークの実験は、MI-RAGが検索リコールと回答の正確性の両方を大幅に改善していることを示している。
- 参考スコア(独自算出の注目度): 8.830228556155673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Multimodal Large Language Models (MLLMs) have significantly advanced multimodal understanding, their performance remains limited on knowledge-intensive visual questions that require external knowledge beyond the image. Retrieval-Augmented Generation (RAG) has become a promising solution for providing models with external knowledge, its conventional single-pass framework often fails to gather sufficient knowledge. To overcome this limitation, we propose MI-RAG, a Multimodal Iterative RAG framework that leverages reasoning to enhance retrieval and update reasoning over newly retrieved knowledge across modalities. At each iteration, MI-RAG leverages an accumulated reasoning record to dynamically formulate a multi-query. These queries then drive a joint search across heterogeneous knowledge bases containing both visually-grounded and textual knowledge. The newly acquired knowledge is synthesized into the reasoning record, progressively refining understanding across iterations. Experiments on challenging benchmarks, including Encyclopedic VQA, InfoSeek, and OK-VQA, show that MI-RAG significantly improves both retrieval recall and answer accuracy, establishing a scalable approach for compositional reasoning in knowledge-intensive VQA.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は非常に高度なマルチモーダル理解を持っているが、その性能は画像以外の外部知識を必要とする知識集約的な視覚的問題に限られている。
Retrieval-Augmented Generation (RAG) は、モデルに外部知識を提供するための有望なソリューションとなっている。
この制限を克服するため,MI-RAGというマルチモーダル反復RAGフレームワークを提案する。
各イテレーションにおいて、MI-RAGは蓄積された推論レコードを利用してマルチクエリを動的に定式化する。
これらのクエリは、視覚的に接地された知識とテキストの知識の両方を含む異種知識ベースの共同検索を駆動する。
新たに取得した知識は推論レコードに合成され、イテレーション間での理解を段階的に洗練する。
Encyclopedic VQA、InfoSeek、OK-VQAといった挑戦的なベンチマークの実験では、MI-RAGは検索リコールと解答精度の両方を大幅に改善し、知識集約型VQAにおける構成的推論のためのスケーラブルなアプローチを確立している。
関連論文リスト
- mKG-RAG: Multimodal Knowledge Graph-Enhanced RAG for Visual Question Answering [29.5761347590239]
Retrieval-Augmented Generation (RAG) はマルチモーダル大言語モデル(MLLM)の内部知識を拡張するために提案されている。
本稿では,知識集約型VQAタスクのためのマルチモーダルKGに基づく,新しいマルチモーダル知識拡張生成フレームワーク(mKG-RAG)を提案する。
論文 参考訳(メタデータ) (2025-08-07T12:22:50Z) - DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。
既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。
我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T14:00:57Z) - CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG [53.950029990391066]
マルチモーダルRAG(CoRe-MMRAG)のためのクロスソース知識textbfReconciliation
本稿では,知識ソース間の不整合を効果的に解決する新しいエンドツーエンドフレームワークを提案する。
KB-VQAベンチマークの実験では、CoRe-MMRAGはベースライン法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-06-03T07:32:40Z) - OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval [17.75545831558775]
知識に基づく視覚質問応答(KB-VQA)に対処するための視覚言語検索拡張生成(RAG)が有効なアプローチとなっている
本稿では,複数の粒度とモダリティを調和させて有効性を向上する,粗大で微細なマルチステップ検索を特徴とするマルチモーダルRAGシステムを提案する。
論文 参考訳(メタデータ) (2025-05-10T14:24:41Z) - Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。
我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文 参考訳(メタデータ) (2025-04-07T06:55:15Z) - A Survey of Multimodal Retrieval-Augmented Generation [3.9616308910160445]
MRAG(Multimodal Retrieval-Augmented Generation)は、マルチモーダルデータ(テキスト、画像、ビデオ)を検索および生成プロセスに統合することにより、大規模言語モデル(LLM)を強化する。
近年の研究では、MRAGは視覚とテキストの両方の理解を必要とするシナリオにおいて、従来の検索・拡張生成(RAG)よりも優れていることが示されている。
論文 参考訳(メタデータ) (2025-03-26T02:43:09Z) - mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA [78.45521005703958]
マルチモーダル検索拡張生成(mRAG)はMLLMに包括的で最新の知識を提供するために自然に導入されている。
我々は、適応的検索と有用な情報ローカライゼーションを実現する textbfRetrieval-textbfReftextbfAugmented textbfGeneration (mR$2$AG) という新しいフレームワークを提案する。
mR$2$AG は INFOSEEK と Encyclopedic-VQA の最先端MLLM を著しく上回る
論文 参考訳(メタデータ) (2024-11-22T16:15:50Z) - Unlocking Multi-View Insights in Knowledge-Dense Retrieval-Augmented Generation [10.431782420943764]
本稿では,知識密度ドメインに適した新しいマルチビューRAGフレームワークであるMVRAGを紹介する。
法的および医学的事例検索実験は、リコール率と精度を著しく改善した。
論文 参考訳(メタデータ) (2024-04-19T13:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。