論文の概要: Enhancing Visual Question Answering with Multimodal LLMs via Chain-of-Question Guided Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2605.03790v1
- Date: Tue, 05 May 2026 14:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.967833
- Title: Enhancing Visual Question Answering with Multimodal LLMs via Chain-of-Question Guided Retrieval-Augmented Generation
- Title(参考訳): 探索ガイド付き検索生成によるマルチモーダルLCMによる視覚的質問応答の促進
- Authors: Quanxing Xu, Ling Zhou, Xian Zhong, Xiaohua Huang, Rubing Huang, Chia-Wen Lin,
- Abstract要約: MLLM(Multimodal Large Language Models)は、幅広いマルチモーダルタスクのための強力なパラダイムとして登場した。
VQA(Visual Question Answering)では、MLLMを使用してパフォーマンスを改善している。
我々は、MLLMがより包括的で一貫性のある外部知識にアクセスできるようにする新しいフレームワーク、CoVQD-Guided RAG(CgRAG)を提案する。
- 参考スコア(独自算出の注目度): 37.206498808334224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With advances in multimodal research and deep learning, Multimodal Large Language Models (MLLMs) have emerged as a powerful paradigm for a wide range of multimodal tasks. As a core problem in vision-language research, Visual Question Answering (VQA) has increasingly employed MLLMs to improve performance, particularly in open-domain settings where external knowledge is essential. In this work, we aim to further enhance retrieval-based VQA by more effectively integrating MLLMs with structured reasoning and knowledge acquisition. We introduce a logical prompting strategy that fuses Chain-of-Thought (CoT) reasoning with Visual Question Decomposition (VQD), termed CoVQD, to guide retrieval toward more accurate and relevant knowledge for MLLM inference. Building on this idea, we propose a new framework, CoVQD-guided RAG (CgRAG), which enables MLLMs to access more comprehensive and coherent external knowledge while benefiting from structured visual-text reasoning guidance, thereby improving generalization and reliability in complex cross-domain VQA scenarios. Extensive experiments on E-VQA, InfoSeek, and OKVQA benchmarks demonstrate the effectiveness of the proposed method.
- Abstract(参考訳): マルチモーダル研究とディープラーニングの進歩により、多モーダル大規模言語モデル(MLLM)は幅広いマルチモーダルタスクの強力なパラダイムとして登場した。
視覚言語研究における中核的な問題として、視覚質問回答(VQA)は、特に外部知識が不可欠であるオープンドメイン環境において、パフォーマンス向上のためにMLLMをますます採用している。
本研究では,MLLMを構造化推論と知識獲得に効果的に統合することにより,検索に基づくVQAをさらに強化することを目的とする。
我々は,MLLM推論のより正確で関連性の高い知識への探索を誘導するために,視覚的質問分解(VQD)と組み合わせたChain-of-Thought(CoT)推論を融合する論理的プロンプト戦略を導入する。
このアイデアに基づいて、構造化されたビジュアルテキスト推論指導の恩恵を受けながらMLLMがより包括的で一貫性のある外部知識にアクセスし、複雑なドメイン間VQAシナリオにおける一般化と信頼性を向上させるための新しいフレームワーク、CoVQD-guided RAG(CgRAG)を提案する。
E-VQA,InfoSeek,OKVQAベンチマークの大規模な実験により,提案手法の有効性が示された。
関連論文リスト
- Multimodal Iterative RAG for Knowledge-Intensive Visual Question Answering [8.830228556155673]
MI-RAGは、推論を利用して検索を強化し、知識合成を取り入れて理解を深めるフレームワークである。
Encyclopedic VQA、InfoSeek、OK-VQAといった挑戦的なベンチマークの実験は、MI-RAGが検索リコールと回答精度の両方を著しく改善していることを示している。
論文 参考訳(メタデータ) (2025-08-31T11:14:54Z) - mKG-RAG: Multimodal Knowledge Graph-Enhanced RAG for Visual Question Answering [29.5761347590239]
Retrieval-Augmented Generation (RAG) はマルチモーダル大言語モデル(MLLM)の内部知識を拡張するために提案されている。
本稿では,知識集約型VQAタスクのためのマルチモーダルKGに基づく,新しいマルチモーダル知識拡張生成フレームワーク(mKG-RAG)を提案する。
論文 参考訳(メタデータ) (2025-08-07T12:22:50Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。
既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。
我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T14:00:57Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA [78.45521005703958]
マルチモーダル検索拡張生成(mRAG)はMLLMに包括的で最新の知識を提供するために自然に導入されている。
我々は、適応的検索と有用な情報ローカライゼーションを実現する textbfRetrieval-textbfReftextbfAugmented textbfGeneration (mR$2$AG) という新しいフレームワークを提案する。
mR$2$AG は INFOSEEK と Encyclopedic-VQA の最先端MLLM を著しく上回る
論文 参考訳(メタデータ) (2024-11-22T16:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。