論文の概要: MSI-Agent: Incorporating Multi-Scale Insight into Embodied Agents for Superior Planning and Decision-Making
- arxiv url: http://arxiv.org/abs/2409.16686v2
- Date: Sat, 09 Nov 2024 07:23:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:06:01.771910
- Title: MSI-Agent: Incorporating Multi-Scale Insight into Embodied Agents for Superior Planning and Decision-Making
- Title(参考訳): MSI-Agent:スーパープランニングと意思決定のためのマルチスケールインサイトを人工エージェントに組み込む
- Authors: Dayuan Fu, Biqing Qi, Yihuai Gao, Che Jiang, Guanting Dong, Bowen Zhou,
- Abstract要約: マルチスケールインサイトエージェント(MSI-Agent)は、計画と意思決定能力を改善するために設計されたエンボディエージェントである。
GPT3.5 による計画において MSI が他の洞察戦略より優れていることを示す。
MSIはドメインシフトシナリオに直面するとき、より堅牢性を示す。
- 参考スコア(独自算出の注目度): 15.393783286305355
- License:
- Abstract: Long-term memory is significant for agents, in which insights play a crucial role. However, the emergence of irrelevant insight and the lack of general insight can greatly undermine the effectiveness of insight. To solve this problem, in this paper, we introduce Multi-Scale Insight Agent (MSI-Agent), an embodied agent designed to improve LLMs' planning and decision-making ability by summarizing and utilizing insight effectively across different scales. MSI achieves this through the experience selector, insight generator, and insight selector. Leveraging a three-part pipeline, MSI can generate task-specific and high-level insight, store it in a database, and then use relevant insight from it to aid in decision-making. Our experiments show that MSI outperforms another insight strategy when planning by GPT3.5. Moreover, We delve into the strategies for selecting seed experience and insight, aiming to provide LLM with more useful and relevant insight for better decision-making. Our observations also indicate that MSI exhibits better robustness when facing domain-shifting scenarios.
- Abstract(参考訳): 長期的な記憶は、洞察が重要な役割を果たすエージェントにとって重要である。
しかし、無関係な洞察の出現と一般的な洞察の欠如は、洞察の有効性を著しく損なう可能性がある。
そこで本稿では,LLMの計画と意思決定能力の向上を目的としたマルチスケールインサイトエージェント(MSI-Agent)を提案する。
MSIはエクスペリエンスセレクタ、インサイトジェネレータ、インサイトセレクタを通じてこれを実現する。
3部構成のパイプラインを活用することで、MSIはタスク固有の高レベルの洞察を生成し、データベースに格納し、関連する洞察を使用して意思決定を支援する。
GPT3.5 による計画において MSI が他の洞察戦略より優れていることを示す。
さらに、私たちは、LLMにより良い意思決定のためのより有用で関連する洞察を提供することを目指して、シードエクスペリエンスと洞察を選択するための戦略を掘り下げています。
また,MSIがドメインシフトシナリオに直面する場合の堅牢性も向上することが示唆された。
関連論文リスト
- RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models [5.0741409008225755]
大規模言語モデル(LLM)は、ロボットの課題を解決するための有望なツールとして登場した。
既存のLSMベースのエージェントは、過去の相互作用を維持および学習する能力に欠ける。
RAG-Modulo は,過去のインタラクションを記憶した LLM ベースのエージェントを強化し,エージェントの判断を評価するための批判を取り入れたフレームワークである。
論文 参考訳(メタデータ) (2024-09-18T20:03:32Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - How Does the Textual Information Affect the Retrieval of Multimodal In-Context Learning? [11.374310255084753]
本稿では,マルチモーダル・イン・コンテクスト学習効率を向上させるニューラルネットワークを用いたMLLM-Retriever MSIERを提案する。
このアプローチは3つの異なるタスクにわたる広範なテストを通じて検証され、メソッドの有効性が実証される。
この探索は、マルチモーダルデータの戦略的利用を通じてMLLMにおける洗練された文脈内学習の可能性を強調し、今後の進歩の道を開くものである。
論文 参考訳(メタデータ) (2024-04-19T13:05:37Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Tackling Visual Control via Multi-View Exploration Maximization [64.8463574294237]
MEMは強化学習における多視点表現学習と報酬駆動探索を組み合わせた最初のアプローチである
我々は,DeepMind Control Suite と Procgen の様々なタスクにおける MEM の評価を行った。
論文 参考訳(メタデータ) (2022-11-28T11:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。