論文の概要: E2CL: Exploration-based Error Correction Learning for Embodied Agents
- arxiv url: http://arxiv.org/abs/2409.03256v2
- Date: Sun, 29 Sep 2024 06:00:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:32.080292
- Title: E2CL: Exploration-based Error Correction Learning for Embodied Agents
- Title(参考訳): E2CL: 身体的エージェントの探索に基づく誤り訂正学習
- Authors: Hanlin Wang, Chak Tou Leong, Jian Wang, Wenjie Li,
- Abstract要約: 本研究では,環境アライメントを高めるために,探索に基づく誤り訂正学習(E2CL)を提案する。
E2CLは、環境フィードバックを収集し、誤った行動を正すために、教師誘導と教師自由を取り入れている。
実験では、E2CLで訓練されたエージェントはベースライン法で訓練されたエージェントよりも優れ、優れた自己補正能力を示す。
- 参考スコア(独自算出の注目度): 9.678098205818566
- License:
- Abstract: Language models are exhibiting increasing capability in knowledge utilization and reasoning. However, when applied as agents in embodied environments, they often suffer from misalignment between their intrinsic knowledge and environmental knowledge, leading to infeasible actions. Traditional environment alignment methods, such as supervised learning on expert trajectories and reinforcement learning, encounter limitations in covering environmental knowledge and achieving efficient convergence, respectively. Inspired by human learning, we propose Exploration-based Error Correction Learning (E2CL), a novel framework that leverages exploration-induced errors and environmental feedback to enhance environment alignment for embodied agents. E2CL incorporates teacher-guided and teacher-free explorations to gather environmental feedback and correct erroneous actions. The agent learns to provide feedback and self-correct, thereby enhancing its adaptability to target environments. Extensive experiments in the VirtualHome environment demonstrate that E2CL-trained agents outperform those trained by baseline methods and exhibit superior self-correction capabilities.
- Abstract(参考訳): 言語モデルは、知識利用と推論の能力が増大している。
しかし、具体的環境においてエージェントとして適用された場合、本質的な知識と環境的な知識の相違に悩まされることがしばしばあり、実行不可能な行動を引き起こす。
専門家軌道の教師付き学習や強化学習といった従来の環境アライメント手法は, 環境知識をカバーし, 効率の良い収束を達成する上での限界に遭遇する。
人間の学習に触発されて,探索に基づく誤り訂正学習(E2CL)を提案する。
E2CLは、環境フィードバックを収集し、誤った行動を正すために、教師誘導と教師なしの探究を取り入れている。
エージェントはフィードバックと自己修正を提供することを学び、それによってターゲット環境への適応性を高める。
VirtualHome環境における大規模な実験により、E2CL訓練エージェントはベースライン法で訓練されたエージェントよりも優れ、優れた自己補正能力を示すことが示された。
関連論文リスト
- True Knowledge Comes from Practice: Aligning LLMs with Embodied
Environments via Reinforcement Learning [37.10401435242991]
大規模言語モデル(LLM)は、環境とのLLMにおける知識のミスアライメントにより、単純な意思決定タスクの解決に失敗することが多い。
本稿では,LSMを意思決定エージェントとして展開する新しいフレームワークであるTWOSOMEを提案する。
論文 参考訳(メタデータ) (2024-01-25T13:03:20Z) - Reinforcement Unlearning [34.67337102571727]
強化学習は、エージェントが累積報酬を最大化するために環境内で最適な決定を行うように訓練することに焦点を当てる。
データ保護規則に従って、環境の所有者はエージェントのトレーニングデータへのアクセスを無効にする権利を有する。
この特徴は,1) 環境に対する未学習スキームの提案方法,2) 残環境におけるエージェントのパフォーマンス低下を回避する方法,3) 未学習の有効性を評価する方法,の3つの異なる課題を提示する。
論文 参考訳(メタデータ) (2023-12-26T07:04:39Z) - Dealing with uncertainty: balancing exploration and exploitation in deep
recurrent reinforcement learning [0.0]
環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。
強化学習(Reinforcement Learning, RL)では、自律的なエージェントが2つの対照的なニーズのバランスを取る必要がある。
適応的手法は、探索と搾取の間のトレードオフを近似した方がよいことを示す。
論文 参考訳(メタデータ) (2023-10-12T13:45:33Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Improving adaptability to new environments and removing catastrophic
forgetting in Reinforcement Learning by using an eco-system of agents [3.5786621294068373]
強化学習(RL)エージェントを目に見えない環境に適応させることは、トレーニング環境に典型的な過度な適合のために難しい課題である。
破滅的な忘れ込みの危険性があり、これまで見られた環境のパフォーマンスが著しく妨げられている。
本稿では,エージェントのエコシステムを利用して双方の懸念に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-13T17:52:54Z) - L2Explorer: A Lifelong Reinforcement Learning Assessment Environment [49.40779372040652]
強化学習ソリューションは、トレーニングされたデータ配布以外の新しいタスクに晒されると、あまり一般化しない傾向があります。
生涯学習エクスプローラー(L2Explorer)を用いた継続的強化学習開発と評価のための枠組みを導入する。
L2Explorerは新しいUnityベースのファーストパーソンな3D探索環境で、複雑な評価カリキュラムに構造化されたタスクやタスクのバリエーションを生成するために継続的に再構成することができる。
論文 参考訳(メタデータ) (2022-03-14T19:20:26Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Curriculum Learning for Safe Mapless Navigation [71.55718344087657]
本研究は,カリキュラム学習(CL)に基づくアプローチがエージェントのパフォーマンスに与える影響について検討する。
特に、ロボットマップレスナビゲーションの安全性に焦点をあて、標準的なエンドツーエンド(E2E)トレーニング戦略と比較する。
論文 参考訳(メタデータ) (2021-12-23T12:30:36Z) - Direct then Diffuse: Incremental Unsupervised Skill Discovery for State
Covering and Goal Reaching [98.25207998996066]
我々は、スキル発見のための相互情報フレームワークを構築し、カバレッジ指向のトレードオフに対応するためにUPSIDEを導入します。
いくつかのナビゲーションおよび制御環境において、UPSIDEが学んだスキルが、既存のベースラインよりもスパース・リワードな下流タスクをどのように解決するかを説明する。
論文 参考訳(メタデータ) (2021-10-27T14:22:19Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。