論文の概要: Efficient Multimodal Planning Agent for Visual Question-Answering
- arxiv url: http://arxiv.org/abs/2601.20676v1
- Date: Wed, 28 Jan 2026 14:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.987136
- Title: Efficient Multimodal Planning Agent for Visual Question-Answering
- Title(参考訳): 視覚的質問応答のための効率的なマルチモーダルプランニングエージェント
- Authors: Zhuo Chen, Xinyu Geng, Xinyu Wang, Yong Jiang, Zhen Zhang, Pengjun Xie, Kewei Tu,
- Abstract要約: 本稿では,MRAGパイプラインを動的に分解してVQAタスクを解くマルチモーダル計画エージェントを訓練する手法を提案する。
本実験では, 従来の手法に比べて探索時間を60%以上削減し, 余剰計算の削減に役立てることができた。
- 参考スコア(独自算出の注目度): 67.26245301307539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Question-Answering (VQA) is a challenging multimodal task that requires integrating visual and textual information to generate accurate responses. While multimodal Retrieval-Augmented Generation (mRAG) has shown promise in enhancing VQA systems by providing more evidence on both image and text sides, the default procedure that addresses VQA queries, especially the knowledge-intensive ones, often relies on multi-stage pipelines of mRAG with inherent dependencies. To mitigate the inefficiency limitations while maintaining VQA task performance, this paper proposes a method that trains a multimodal planning agent, dynamically decomposing the mRAG pipeline to solve the VQA task. Our method optimizes the trade-off between efficiency and effectiveness by training the agent to intelligently determine the necessity of each mRAG step. In our experiments, the agent can help reduce redundant computations, cutting search time by over 60\% compared to existing methods and decreasing costly tool calls. Meanwhile, experiments demonstrate that our method outperforms all baselines, including a Deep Research agent and a carefully designed prompt-based method, on average over six various datasets. Code will be released.
- Abstract(参考訳): VQA(Visual Question-Answering)は、正確な応答を生成するために視覚情報とテキスト情報を統合する必要がある、困難なマルチモーダルタスクである。
mRAG(Multimodal Retrieval-Augmented Generation)は、画像とテキストの双方についてより多くの証拠を提供することでVQAシステムを強化することを約束しているが、VQAクエリ、特に知識集約的なクエリに対処するデフォルトの手順は、しばしば固有の依存関係を持つmRAGのマルチステージパイプラインに依存している。
本稿では,VQAタスク性能を維持しながら効率の限界を緩和するため,マルチモーダル計画エージェントを訓練し,mRAGパイプラインを動的に分解してVQAタスクを解く手法を提案する。
本手法は,mRAGの各ステップの必要性をインテリジェントに判断するためにエージェントを訓練することにより,効率と効率のトレードオフを最適化する。
実験では, 余剰計算の削減, 検索時間の60倍以上削減, コストのかかるツールコールの削減に役立てることができた。
一方,本手法は,Deep Researchエージェントや慎重に設計されたプロンプトベースの手法を含む,すべてのベースラインを平均6つのデータセットで上回る性能を示した。
コードはリリースされる。
関連論文リスト
- Empowering RepoQA-Agent based on Reinforcement Learning Driven by Monte-carlo Tree Search [70.63903518295785]
モンテカルロ木探索によるエージェント強化学習フレームワークRepoSearch-R1を紹介する。
RepoSearch-R1に基づいて,リポジトリ質問応答タスク用に設計されたRepoQA-Agentを構築する。
論文 参考訳(メタデータ) (2025-10-30T09:10:36Z) - Efficient Agent: Optimizing Planning Capability for Multimodal Retrieval Augmented Generation [17.115587821286223]
マルチモーダル大規模言語モデル(MLLM)のリアルタイムシナリオにおける時間的制限に対処する,有望なソリューションとして,mRAG(Multimodal Retrieval-Augmented Generation)が登場した。
本稿では、コンテキスト推論に基づくマルチモーダルツールを動的にオーケストレーションするmRAGプランナと、ツール認識実行シーケンシングを用いたタスク実行器の2つの重要なイノベーションを特徴とするエージェントフレームワークであるE-Agentを提案する。
論文 参考訳(メタデータ) (2025-08-12T10:17:12Z) - QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering [27.567923098020586]
本稿では,知識集約型VQAのためのクエリ対応動的RAGシステムQA-Dragonを提案する。
テキストと画像検索エージェントをハイブリッド化することにより,マルチモーダル,マルチターン,マルチホップ推論をサポートする。
KDDカップ2025におけるメタCRAG-MMチャレンジの枠組みを評価する。
論文 参考訳(メタデータ) (2025-08-07T09:32:49Z) - Knowledge-Aware Iterative Retrieval for Multi-Agent Systems [0.0]
本稿では,新しい大規模言語モデル (LLM) によるエージェントフレームワークを提案する。
動的に進化する知識を活用することで、クエリを反復的に洗練し、文脈的証拠をフィルタリングする。
提案システムは、更新されたコンテキストの競合的および協調的な共有をサポートする。
論文 参考訳(メタデータ) (2025-03-17T15:27:02Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [92.5712549836791]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。
本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。
大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文 参考訳(メタデータ) (2024-10-03T04:07:51Z) - AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit [59.10281630985958]
質問応答(QA)では、異なる質問を異なる回答戦略で効果的に扱うことができる。
本稿では,各質問に対して最適なQA戦略を適応的に選択する動的手法を提案する。
提案手法は,複数のモジュールを持つQAシステムの適応的オーケストレーションに有効であることを示す。
論文 参考訳(メタデータ) (2024-09-20T12:28:18Z) - Towards Human-Level Understanding of Complex Process Engineering Schematics: A Pedagogical, Introspective Multi-Agent Framework for Open-Domain Question Answering [0.0]
化学・プロセス産業では、プロセス・フロー・ダイアグラム(PFD)とパイプ・アンド・インスツルメンテーション・ダイアグラム(P&ID)が設計、建設、保守に不可欠である。
生成型AIの最近の進歩は、ビジュアル質問回答(VQA)のプロセス図の理解と解釈の約束を示している。
本稿では,階層的かつマルチエージェントなRetrieval Augmented Generation(RAG)フレームワークを用いた,セキュアでオンプレミスなエンタープライズソリューションを提案する。
論文 参考訳(メタデータ) (2024-08-24T19:34:04Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。