論文の概要: WikiSeeker: Rethinking the Role of Vision-Language Models in Knowledge-Based Visual Question Answering
- arxiv url: http://arxiv.org/abs/2604.05818v2
- Date: Tue, 14 Apr 2026 13:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.119356
- Title: WikiSeeker: Rethinking the Role of Vision-Language Models in Knowledge-Based Visual Question Answering
- Title(参考訳): WikiSeeker:知識に基づく視覚質問応答における視覚言語モデルの役割の再考
- Authors: Yingjian Zhu, Xinming Wang, Kun Ding, Ying Wang, Bin Fan, Shiming Xiang,
- Abstract要約: 本稿では,視覚的質問応答のための新しいマルチモーダルRAGフレームワークであるWikiSeekerを紹介する。
本稿では,マルチモーダルレトリバーを提案し,視覚言語モデル(VLM)の役割を再定義する。
EVQA,InfoSeek,M2KRに関する実験により,WikiSeekerが最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 28.203233670186535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Retrieval-Augmented Generation (RAG) has emerged as a highly effective paradigm for Knowledge-Based Visual Question Answering (KB-VQA). Despite recent advancements, prevailing methods still primarily depend on images as the retrieval key, and often overlook or misplace the role of Vision-Language Models (VLMs), thereby failing to leverage their potential fully. In this paper, we introduce WikiSeeker, a novel multi-modal RAG framework that bridges these gaps by proposing a multi-modal retriever and redefining the role of VLMs. Rather than serving merely as answer generators, we assign VLMs two specialized agents: a Refiner and an Inspector. The Refiner utilizes the capability of VLMs to rewrite the textual query according to the input image, significantly improving the performance of the multimodal retriever. The Inspector facilitates a decoupled generation strategy by selectively routing reliable retrieved context to another LLM for answer generation, while relying on the VLM's internal knowledge when retrieval is unreliable. Extensive experiments on EVQA, InfoSeek, and M2KR demonstrate that WikiSeeker achieves state-of-the-art performance, with substantial improvements in both retrieval accuracy and answer quality. Our code will be released on https://github.com/zhuyjan/WikiSeeker.
- Abstract(参考訳): 知識に基づく視覚質問応答(KB-VQA)の高効率パラダイムとして,マルチモーダル検索拡張生成(RAG)が登場している。
近年の進歩にもかかわらず、一般的な手法は検索キーとしてのイメージに依存しており、ビジョン・ランゲージ・モデル(VLM)の役割を見落としたり、誤ったりすることも多い。
本稿では,マルチモーダルレトリバーを提案し,VLMの役割を再定義することによって,これらのギャップを埋める新しいマルチモーダルRAGフレームワークであるWikiSeekerを紹介する。
単に応答ジェネレータとして機能するのではなく、我々はVLMにRefinerとInspectorという2つの特殊エージェントを割り当てる。
Refinerは、入力画像に従ってテキストクエリを書き換えるVLMの機能を活用し、マルチモーダル検索の性能を大幅に向上させる。
インスペクタは、信頼できないときにVLMの内部知識を頼りに、信頼できる検索コンテキストを別のLCMに選択的にルーティングすることで、分離された生成戦略を促進する。
EVQA、InfoSeek、M2KRに関する大規模な実験は、WikiSeekerが最先端のパフォーマンスを達成し、検索精度と回答品質を大きく改善したことを示している。
私たちのコードはhttps://github.com/zhuyjan/WikiSeeker.comで公開されます。
関連論文リスト
- ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。
既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。
我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T14:00:57Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA [78.45521005703958]
マルチモーダル検索拡張生成(mRAG)はMLLMに包括的で最新の知識を提供するために自然に導入されている。
我々は、適応的検索と有用な情報ローカライゼーションを実現する textbfRetrieval-textbfReftextbfAugmented textbfGeneration (mR$2$AG) という新しいフレームワークを提案する。
mR$2$AG は INFOSEEK と Encyclopedic-VQA の最先端MLLM を著しく上回る
論文 参考訳(メタデータ) (2024-11-22T16:15:50Z) - Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines [18.602869210526848]
Vision Search Assistantは、視覚言語モデルとWebエージェントの協調を促進する新しいフレームワークである。
このコラボレーションを通じて視覚的およびテキスト的表現を統合することにより、システムは、その画像がシステムに新規である場合でも、インフォームドレスポンスを提供することができる。
論文 参考訳(メタデータ) (2024-10-28T17:04:18Z) - SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge [56.772051051558215]
大規模視覚言語モデル(LVLM)は、LLaVAシリーズのような最新の知識を知らない。
本稿では,サーチLVLMと呼ばれる最新の知識に関する視覚的質問応答(VQA)を扱うために,既存のLVLMを増補するプラグイン・アンド・プレイフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T13:32:07Z) - Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering [47.668572102657684]
本稿では,視覚言語モデル(VLM)の能力を高めるために,LLM(Large Language Models)の拡張的知識を活用することで,新しいマルチエージェントコラボレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-29T03:10:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。