論文の概要: Efficient Agent: Optimizing Planning Capability for Multimodal Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2508.08816v1
- Date: Tue, 12 Aug 2025 10:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.385825
- Title: Efficient Agent: Optimizing Planning Capability for Multimodal Retrieval Augmented Generation
- Title(参考訳): 効率的なエージェント:マルチモーダル検索拡張ジェネレーションのためのプランニング能力の最適化
- Authors: Yuechen Wang, Yuming Qiao, Dan Meng, Jun Yang, Haonan Lu, Zhenyu Yang, Xudong Zhang,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)のリアルタイムシナリオにおける時間的制限に対処する,有望なソリューションとして,mRAG(Multimodal Retrieval-Augmented Generation)が登場した。
本稿では、コンテキスト推論に基づくマルチモーダルツールを動的にオーケストレーションするmRAGプランナと、ツール認識実行シーケンシングを用いたタスク実行器の2つの重要なイノベーションを特徴とするエージェントフレームワークであるE-Agentを提案する。
- 参考スコア(独自算出の注目度): 17.115587821286223
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal Retrieval-Augmented Generation (mRAG) has emerged as a promising solution to address the temporal limitations of Multimodal Large Language Models (MLLMs) in real-world scenarios like news analysis and trending topics. However, existing approaches often suffer from rigid retrieval strategies and under-utilization of visual information. To bridge this gap, we propose E-Agent, an agent framework featuring two key innovations: a mRAG planner trained to dynamically orchestrate multimodal tools based on contextual reasoning, and a task executor employing tool-aware execution sequencing to implement optimized mRAG workflows. E-Agent adopts a one-time mRAG planning strategy that enables efficient information retrieval while minimizing redundant tool invocations. To rigorously assess the planning capabilities of mRAG systems, we introduce the Real-World mRAG Planning (RemPlan) benchmark. This novel benchmark contains both retrieval-dependent and retrieval-independent question types, systematically annotated with essential retrieval tools required for each instance. The benchmark's explicit mRAG planning annotations and diverse question design enhance its practical relevance by simulating real-world scenarios requiring dynamic mRAG decisions. Experiments across RemPlan and three established benchmarks demonstrate E-Agent's superiority: 13% accuracy gain over state-of-the-art mRAG methods while reducing redundant searches by 37%.
- Abstract(参考訳): MRAG(Multimodal Retrieval-Augmented Generation)は、ニュース分析やトレンドトピックといった現実のシナリオにおいて、MLLM(Multimodal Large Language Models)の時間的制限に対処する、有望なソリューションとして登場した。
しかし、既存のアプローチは、しばしば厳格な検索戦略と視覚情報の未利用に悩まされる。
このギャップを埋めるために、E-Agentは、コンテキスト推論に基づいて動的にマルチモーダルツールをオーケストレーションするよう訓練されたmRAGプランナーと、最適化されたmRAGワークフローを実装するためにツール認識実行シークエンシングを利用するタスク実行器の2つの重要な革新を特徴とするエージェントフレームワークである。
E-Agentは、冗長なツール呼び出しを最小限にしつつ、効率的な情報検索を可能にする1回のmRAG計画戦略を採用する。
我々は,mRAGシステムの計画能力を厳格に評価するために,Real-World mRAG Planning (RemPlan)ベンチマークを導入する。
このベンチマークには、検索に依存しない質問タイプと検索に依存しない質問タイプの両方が含まれており、各インスタンスに必要な必須の検索ツールを体系的にアノテートしている。
ベンチマークの明示的なmRAG計画アノテーションと多様な質問設計は、動的なmRAG決定を必要とする現実のシナリオをシミュレートすることで、その実践的関連性を高める。
RemPlanと3つの確立されたベンチマークによる実験は、E-Agentの優位性を示している: 13%の精度が最先端のmRAG法よりも向上し、冗長な検索を37%削減した。
関連論文リスト
- RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - LOP: Learning Optimal Pruning for Efficient On-Demand MLLMs Scaling [52.1366057696919]
LOPは、ターゲットプルーニング制約から最適なプルーニング戦略を学ぶ、効率的なニューラルプルーニングフレームワークである。
LOPアプローチでは、自動回帰ニューラルネットワーク(NN)を使用して、ターゲットプルーニング制約に適応したレイヤワイズプルーニング戦略を直接予測する。
実験の結果,LOPは最大3桁のスピードアップを達成しつつ,様々な測定値において最先端のプルーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-15T12:14:16Z) - ImpRAG: Retrieval-Augmented Generation with Implicit Queries [49.510101132093396]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。
我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文 参考訳(メタデータ) (2025-06-02T21:38:21Z) - MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning [43.66966457772646]
MA-RAGは、タスク認識推論でRAGパイプラインの各ステージに取り組むために、特別なAIエージェントの協力的なセットを編成する。
我々の設計では、モデルが微調整されることなく、情報の流れをきめ細かな制御が可能である。
このモジュラーおよび推論駆動アーキテクチャにより、MA-RAGは堅牢で解釈可能な結果を提供できる。
論文 参考訳(メタデータ) (2025-05-26T15:05:18Z) - InstructRAG: Leveraging Retrieval-Augmented Generation on Instruction Graphs for LLM-Based Task Planning [6.75641900721385]
大規模言語モデル(LLM)は、複雑なタスクを計画するためのエージェントとしての使用を可能にした。
Retrieval-augmented Generation (RAG) は、検索された情報において、外部データベースをグラウンドジェネレーションに活用することで、新たな機会を提供する。
本稿では,これらの課題に対処するためのマルチエージェントメタ強化学習フレームワークであるInstructRAGを提案する。
論文 参考訳(メタデータ) (2025-04-17T15:41:39Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark [16.55516587540082]
本稿では,リアルタイム検索に不可欠な4つの重要な特性に対処する自動生成ベンチマークREAL-MM-RAGを紹介する。
本稿では,キーワードマッチング以外のモデルのセマンティック理解を評価するために,クエリリフレッシングに基づく多言語レベルのスキームを提案する。
我々のベンチマークでは、特にテーブル重ドキュメントの扱いや、クエリ・リフレージングに対する堅牢性において、重要なモデルの弱点が明らかになっている。
論文 参考訳(メタデータ) (2025-02-17T22:10:47Z) - Unveiling the Potential of Multimodal Retrieval Augmented Generation with Planning [5.205803766626321]
MRAG (Multimodal Retrieval Augmented Generation) システムは、しばしば厳密な単一ステップの検索手法に依存している。
人間の認知プロセスにインスパイアされた汎用的なフレームワークであるCagPlannerを紹介します。
CogPlannerはクエリを反復的に洗練し、検索戦略を選択し、並列およびシーケンシャルなモデリングアプローチを可能にする。
論文 参考訳(メタデータ) (2025-01-26T10:16:42Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Plan*RAG: Efficient Test-Time Planning for Retrieval Augmented Generation [20.5047654554575]
Plan*RAGは、検索強化世代(RAG)における構造化マルチホップ推論を可能にするフレームワーク
Plan*RAGは、RQ-RAGやSelf-RAGといった最近提案された手法よりも一貫して改善されている。
論文 参考訳(メタデータ) (2024-10-28T05:35:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。