論文の概要: Learning to Search: A Decision-Based Agent for Knowledge-Based Visual Question Answering
- arxiv url: http://arxiv.org/abs/2604.07146v1
- Date: Wed, 08 Apr 2026 14:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.585414
- Title: Learning to Search: A Decision-Based Agent for Knowledge-Based Visual Question Answering
- Title(参考訳): 学習から検索へ:知識に基づく視覚的質問応答のための決定型エージェント
- Authors: Zhuohong Chen, Zhenxian Wu, Yunyao Yu, Hangrui Xu, Zirui Liao, Zhifang Liu, Xiangwen Deng, Pen Jiao, Haoqian Wang,
- Abstract要約: 知識に基づく視覚的質問応答(KB-VQA)は、画像を理解し、外部知識を使用するために視覚言語モデルを必要とする。
ほとんどの既存の検索拡張生成(RAG)メソッドは、情報を逐次検索し、フィルタリングし、回答を生成する固定パイプラインを採用している。
我々は,KB-VQAを探索エージェント問題として再定義し,その解法を多段階決定手順としてモデル化する。
- 参考スコア(独自算出の注目度): 18.5913106358874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-based visual question answering (KB-VQA) requires vision-language models to understand images and use external knowledge, especially for rare entities and long-tail facts. Most existing retrieval-augmented generation (RAG) methods adopt a fixed pipeline that sequentially retrieves information, filters it, and then produces an answer. Such a design makes it difficult to adapt to diverse question types. Moreover, it separates retrieval from reasoning, making it hard for the model to decide when to search, how to refine queries, or when to stop. As a result, the retrieved evidence is often poorly aligned with the question. To address these limitations, we reformulate KB-VQA as a search-agent problem and model the solving process as a multi-step decision-making procedure. At each step, the agent selects one of four actions-Answer, Image Retrieval, Text Retrieval, and Caption-based on its current information state. We further design an automated pipeline to collect multi-step trajectories that record the agent's reasoning process, tool usage, and intermediate decisions. These trajectories are then used as supervision for fine-tuning. Experiments on InfoSeek and E-VQA demonstrate that our method achieves state-of-the-art performance, consistently outperforming prior baselines and confirming the effectiveness of our framework.
- Abstract(参考訳): 知識に基づく視覚的質問応答(KB-VQA)は、画像を理解して外部知識を使用するために視覚言語モデルを必要とする。
ほとんどの既存の検索拡張生成(RAG)メソッドは、情報を逐次検索し、フィルタリングし、回答を生成する固定パイプラインを採用している。
このような設計により、多様な質問タイプに適応することが困難になる。
さらに、検索と推論を分離することで、モデルがいつ検索するか、どのようにクエリを洗練するか、いつ停止するかを決定するのが難しくなる。
結果として、回収された証拠は、しばしばその問題と不一致である。
これらの制約に対処するため、KB-VQAを探索エージェント問題として再構成し、多段階決定手順として解決プロセスをモデル化する。
各ステップで、エージェントは現在の情報状態に基づいて、4つのアクションAnswer、Image Retrieval、Text Retrieval、Captionの1つを選択する。
さらに、エージェントの推論プロセス、ツールの使用方法、中間決定を記録するマルチステップのトラジェクトリを収集する自動パイプラインを設計する。
これらの軌道はその後、微調整の監督として使用される。
InfoSeek と E-VQA の実験により,本手法が最先端の性能を実現し,従来よりも一貫して性能を向上し,フレームワークの有効性を確認することができた。
関連論文リスト
- ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - Retrieval-Augmented Visual Question Answering via Built-in Autoregressive Search Engines [17.803396998387665]
Retrieval-augmented Generation (RAG)は、知識集約型視覚質問応答(VQA)タスクに対処するために登場した。
本稿では,知識に基づくVQAタスクに対する従来のRAGモデルの代替としてReAuSEを提案する。
我々のモデルは生成型検索器と正確な回答生成器の両方として機能する。
論文 参考訳(メタデータ) (2025-02-23T16:39:39Z) - Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering [47.668572102657684]
本稿では,視覚言語モデル(VLM)の能力を高めるために,LLM(Large Language Models)の拡張的知識を活用することで,新しいマルチエージェントコラボレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-29T03:10:42Z) - AVIS: Autonomous Visual Information Seeking with Large Language Model
Agent [123.75169211547149]
本稿では,視覚的質問応答フレームワークAVISを提案する。
本手法は,LLM(Large Language Model)を利用して外部ツールの利用を動的に強化する。
AVIS は Infoseek や OK-VQA などの知識集約型視覚質問応答ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-06-13T20:50:22Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。