論文の概要: CogPlanner: Unveiling the Potential of Agentic Multimodal Retrieval Augmented Generation with Planning
- arxiv url: http://arxiv.org/abs/2501.15470v2
- Date: Fri, 31 Oct 2025 03:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 19:57:09.684572
- Title: CogPlanner: Unveiling the Potential of Agentic Multimodal Retrieval Augmented Generation with Planning
- Title(参考訳): CogPlanner: 計画を伴うエージェント型マルチモーダル検索生成の可能性
- Authors: Xiaohan Yu, Zhihan Yang, Chong Chen,
- Abstract要約: Multimodal Retrieval Augmented Generation(MRAG)システムは、MLLM(Multimodal Large Language Model)の生成能力を高めることを約束している。
既存のMRAGフレームワークは主に、情報取得とクエリ再構成の現実的な課題に対処できない厳格で単一ステップの検索戦略に準拠している。
本稿では,計算オーバーヘッドを最小限に抑えつつ,効果的な情報探索と統合を目的としたMRAG計画(Multimodal Retrieval Augmented Generation Planning)の課題を紹介する。
- 参考スコア(独自算出の注目度): 9.027579000292441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Retrieval Augmented Generation (MRAG) systems have shown promise in enhancing the generation capabilities of multimodal large language models (MLLMs). However, existing MRAG frameworks primarily adhere to rigid, single-step retrieval strategies that fail to address real-world challenges of information acquisition and query reformulation. In this work, we introduce the task of Multimodal Retrieval Augmented Generation Planning (MRAG Planning) that aims at effective information seeking and integration while minimizing computational overhead. Specifically, we propose CogPlanner, an agentic plug-and-play framework inspired by human cognitive processes, which iteratively determines query reformulation and retrieval strategies to generate accurate and contextually relevant responses. CogPlanner supports parallel and sequential modeling paradigms. Furthermore, we introduce CogBench, a new benchmark designed to rigorously evaluate the MRAG Planning task and facilitate lightweight CogPlanner integration with resource-efficient MLLMs, such as Qwen2-VL-7B-Cog. Experimental results demonstrate that CogPlanner significantly outperforms existing MRAG baselines, offering improvements in both accuracy and efficiency with minimal additional computational costs.
- Abstract(参考訳): マルチモーダル検索拡張生成システム(MRAG)は,マルチモーダル大言語モデル(MLLM)の生成能力の向上を約束している。
しかし、既存のMRAGフレームワークは、情報取得とクエリ再構成の現実的な課題に対処できない厳格で単一ステップの検索戦略に主に従っている。
本稿では,計算オーバーヘッドを最小限に抑えつつ,効果的な情報探索と統合を目的としたMRAG計画(Multimodal Retrieval Augmented Generation Planning)の課題を紹介する。
具体的には,人間の認知プロセスにインスパイアされたエージェント的プラグアンドプレイフレームワークであるCogPlannerを提案する。
CogPlannerは並列およびシーケンシャルなモデリングパラダイムをサポートする。
さらに,MRAG計画タスクを厳格に評価し,Qwen2-VL-7B-Cogのような資源効率の高いMLLMとの軽量なCagPlanner統合を容易にするために設計された新しいベンチマークであるCagBenchを紹介する。
実験結果から、CagPlannerは既存のMRAGベースラインを大幅に上回り、最小の計算コストで精度と効率を向上することを示した。
関連論文リスト
- PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving [66.42260489147617]
大規模言語モデルから合成タスク分解を蒸留するフレームワークであるPLAN-TUNINGを紹介する。
複雑な推論を改善するために、教師付きおよび強化学習の目的を通したプランチューン細管モデル。
本分析は,計画軌道が複雑な推論能力をいかに改善するかを示す。
論文 参考訳(メタデータ) (2025-07-10T07:30:44Z) - CRISP: Complex Reasoning with Interpretable Step-based Plans [15.656686375199921]
数学的推論とコード生成のための高レベルプランのデータセットであるCRISP(Complex Reasoning with Interpretable Step-based Plans)を紹介する。
CRISP上で小さなモデルを微調整することで、より大規模なモデルよりも高品質なプランを少数ショットプロンプトで作成できることを実証する。
論文 参考訳(メタデータ) (2025-07-09T11:40:24Z) - Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Unlocking Large Language Model's Planning Capabilities with Maximum Diversity Fine-tuning [10.704716790096498]
大規模言語モデル(LLM)は、技術やシステム設計の促進を通じて、目覚ましいタスク解決能力を示している。
事前データに制限のあるタスクを計画するためには、GPTやGeminiといったプロプライエタリなモデルを含むLLMのパフォーマンスは貧弱である。
本稿では,LLMの計画能力に及ぼす微調整の影響について検討する。
論文 参考訳(メタデータ) (2024-06-15T03:06:14Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Improving Planning with Large Language Models: A Modular Agentic Architecture [7.63815864256878]
大規模言語モデル(LLM)は、多段階の推論や目標指向の計画を必要とするタスクに悩まされることが多い。
本稿では,特殊モジュールの反復的相互作用によって計画が達成されるエージェントアーキテクチャ,MAPを提案する。
MAPは両方の標準LLM法よりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-09-30T00:10:14Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。