論文の概要: Unveiling the Potential of Multimodal Retrieval Augmented Generation with Planning
- arxiv url: http://arxiv.org/abs/2501.15470v1
- Date: Sun, 26 Jan 2025 10:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:53:46.237944
- Title: Unveiling the Potential of Multimodal Retrieval Augmented Generation with Planning
- Title(参考訳): マルチモーダル検索型Augmented Generation の可能性と計画
- Authors: Xiaohan Yu, Zhihan Yang, Chong Chen,
- Abstract要約: MRAG (Multimodal Retrieval Augmented Generation) システムは、しばしば厳密な単一ステップの検索手法に依存している。
人間の認知プロセスにインスパイアされた汎用的なフレームワークであるCagPlannerを紹介します。
CogPlannerはクエリを反復的に洗練し、検索戦略を選択し、並列およびシーケンシャルなモデリングアプローチを可能にする。
- 参考スコア(独自算出の注目度): 5.205803766626321
- License:
- Abstract: Multimodal Retrieval Augmented Generation (MRAG) systems, while promising for enhancing Multimodal Large Language Models (MLLMs), often rely on rigid, single-step retrieval methods. This limitation hinders their ability to effectively address real-world scenarios that demand adaptive information acquisition and query refinement. To overcome this, we introduce the novel task of Multimodal Retrieval Augmented Generation Planning (MRAG Planning), focusing on optimizing MLLM performance while minimizing computational overhead. We present CogPlanner, a versatile framework inspired by human cognitive processes. CogPlanner iteratively refines queries and selects retrieval strategies, enabling both parallel and sequential modeling approaches. To rigorously evaluate MRAG Planning, we introduce CogBench, a new benchmark specifically designed for this task. CogBench facilitates the integration of lightweight CogPlanner with resource-efficient MLLMs. Our experimental findings demonstrate that CogPlanner surpasses existing MRAG baselines, achieving significant improvements in both accuracy and efficiency with minimal computational overhead.
- Abstract(参考訳): MRAG (Multimodal Retrieval Augmented Generation) システムは、MLLM (Multimodal Large Language Models) の強化を約束する一方で、厳密な単一ステップの検索手法に依存することが多い。
この制限は、適応的な情報取得とクエリの洗練を要求する現実世界のシナリオに効果的に対処する能力を妨げる。
そこで我々は,計算オーバーヘッドを最小化しながらMLLM性能を最適化することに着目し,MRAG計画(Multimodal Retrieval Augmented Generation Planning)の新たな課題を紹介した。
人間の認知プロセスにインスパイアされた汎用的なフレームワークであるCagPlannerを紹介します。
CogPlannerはクエリを反復的に洗練し、検索戦略を選択し、並列およびシーケンシャルなモデリングアプローチを可能にする。
MRAGプランニングを厳格に評価するために,このタスクに特化して設計された新しいベンチマークであるCogBenchを紹介する。
CogBenchは、軽量なCagPlannerとリソース効率の良いMLLMの統合を容易にする。
実験の結果,CagPlannerは既存のMRAGベースラインを超え,計算オーバーヘッドを最小限に抑え,精度と効率を両立させることができた。
関連論文リスト
- Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Improving Planning with Large Language Models: A Modular Agentic Architecture [7.63815864256878]
大規模言語モデル(LLM)は、多段階の推論や目標指向の計画を必要とするタスクに悩まされることが多い。
本稿では,特殊モジュールの反復的相互作用によって計画が達成されるエージェントアーキテクチャ,MAPを提案する。
MAPは両方の標準LLM法よりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-09-30T00:10:14Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。