論文の概要: Don't Just Follow MLLM Plans: Robust and Efficient Planning for Open-world Agents
- arxiv url: http://arxiv.org/abs/2505.24157v1
- Date: Fri, 30 May 2025 03:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.740326
- Title: Don't Just Follow MLLM Plans: Robust and Efficient Planning for Open-world Agents
- Title(参考訳): MLLMの計画に従うな - オープンワールドエージェントのロバストで効率的な計画
- Authors: Seungjoon Lee, Suhwan Kim, Minhyeon Oh, Youngsik Yoon, Jungseul Ok,
- Abstract要約: 本稿では,これらの問題に対処するための新しいフレームワークであるオープンワールドエージェントのためのロバスト・効率的な計画手法(REPOA)を紹介する。
REPOAは、適応的な依存性学習と、知識不正確性に対する堅牢性を高めるためのきめ細かな障害対応操作メモリの3つの重要なコンポーネントを備えている。
2つの確立されたオープンワールドテストベッドにおける評価は、REPOAの堅牢で効率的なプランニングを実証し、遅発品の獲得に成功していることを示す。
- 参考スコア(独自算出の注目度): 7.186226937530119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing autonomous agents capable of mastering complex, multi-step tasks in unpredictable, interactive environments presents a significant challenge. While Large Language Models (LLMs) offer promise for planning, existing approaches often rely on problematic internal knowledge or make unrealistic environmental assumptions. Although recent work explores learning planning knowledge, they still retain limitations due to partial reliance on external knowledge or impractical setups. Indeed, prior research has largely overlooked developing agents capable of acquiring planning knowledge from scratch, directly in realistic settings. While realizing this capability is necessary, it presents significant challenges, primarily achieving robustness given the substantial risk of incorporating LLMs' inaccurate knowledge. Moreover, efficiency is crucial for practicality as learning can demand prohibitive exploration. In response, we introduce Robust and Efficient Planning for Open-world Agents (REPOA), a novel framework designed to tackle these issues. REPOA features three key components: adaptive dependency learning and fine-grained failure-aware operation memory to enhance robustness to knowledge inaccuracies, and difficulty-based exploration to improve learning efficiency. Our evaluation in two established open-world testbeds demonstrates REPOA's robust and efficient planning, showcasing its capability to successfully obtain challenging late-game items that were beyond the reach of prior approaches.
- Abstract(参考訳): 予測不可能で対話的な環境で複雑なマルチステップタスクをマスターできる自律エージェントを開発することは、大きな課題である。
大きな言語モデル(LLM)は計画の約束を提供するが、既存のアプローチは問題のある内部知識や非現実的な環境仮定に依存することが多い。
最近の研究は計画知識の学習を探求しているが、外部知識や非現実的な設定に部分的に依存しているため、これらの知識は依然として限界を維持している。
実際、以前の研究では、計画的な知識をゼロから直接現実的な環境で獲得できる開発エージェントがほとんど見過ごされてきた。
この能力を実現するには重要な課題があるが、LLMの不正確な知識を組み込むことのかなりのリスクを考えると、主に堅牢性を達成することが重要である。
さらに、学習が禁止探索を要求できるため、効率性は実践に不可欠である。
これに対し,オープンワールドエージェントのためのロバストかつ効率的なプランニング(REPOA)を導入する。
REPOAは、適応的な依存性学習と、知識の不正確性に対する堅牢性を高めるためのきめ細かな障害認識操作メモリ、学習効率を改善するための困難に基づく探索の3つの重要なコンポーネントを備えている。
2つの確立されたオープンワールドテストベッドにおける評価は、REPOAの堅牢で効率的なプランニングを実証し、従来のアプローチの範囲を超えて挑戦的な後期ゲームアイテムの獲得に成功していることを示す。
関連論文リスト
- STAR: A Foundation Model-driven Framework for Robust Task Planning and Failure Recovery in Robotic Systems [5.426894918217948]
STAR(Smart Task Adaptation and Recovery)は、ファンデーションモデル(FM)と動的に拡張された知識グラフ(KG)を相乗化する新しいフレームワークである。
FMは目覚ましい一般化と文脈推論を提供するが、その制限は信頼性を損なう。
その結果,STARは86%のタスク計画精度と78%のリカバリ成功率を示し,ベースライン法よりも有意な改善を示した。
論文 参考訳(メタデータ) (2025-03-08T05:05:21Z) - WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。
WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。
次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文 参考訳(メタデータ) (2024-04-11T03:31:54Z) - Partially Observable Task and Motion Planning with Uncertainty and Risk Awareness [34.77182116081535]
統合型タスク・アンド・モーション・プランニング(TAMP)は、長期のロボット操作とナビゲーションの問題を一般化するための貴重なアプローチであることが証明されている。
これらの仮定は、プランナーが情報を収集し、リスクを認識した意思決定を行う能力を制限します。
本研究では,初期状態と行動結果の不確実性を伴う長期計画問題を効果的に解決できる不確実性とリスク認識(TAMPURA)を備えたTAMP戦略を提案する。
論文 参考訳(メタデータ) (2024-03-15T16:42:14Z) - Employing LLMs for Incident Response Planning and Review [0.0]
効果的なサイバーセキュリティ管理には、インシデント対応計画(IRP)が不可欠である。
しかし、包括的なIRPの作成は、複雑なシステム、高いターンオーバ率、ドキュメントの欠如といった課題に悩まされることが多い。
本稿では,ChatGPTのようなLarge Language Models (LLMs)を活用することで,IRPの開発,レビュー,改良が大幅に向上できると主張している。
論文 参考訳(メタデータ) (2024-03-02T17:23:41Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Thrust: Adaptively Propels Large Language Models with External Knowledge [69.50273822565363]
大規模事前学習言語モデル(PTLM)は、モデルパラメータの豊富な知識を符号化する。
PTLMの固有の知識は不透明または静的であり、外部の知識を必要とする。
本稿では,外部知識のインスタンスレベル適応推進(IAPEK)を提案する。
論文 参考訳(メタデータ) (2023-07-19T20:16:46Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。