論文の概要: Coupled Distributional Random Expert Distillation for World Model Online Imitation Learning
- arxiv url: http://arxiv.org/abs/2505.02228v1
- Date: Sun, 04 May 2025 19:32:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.494506
- Title: Coupled Distributional Random Expert Distillation for World Model Online Imitation Learning
- Title(参考訳): 世界モデルオンライン模倣学習のための分散ランダムエキスパート蒸留
- Authors: Shangzhe Li, Zhiao Huang, Hao Su,
- Abstract要約: イミテーション・ラーニング(IL)は、ロボット工学、自律運転、医療など、さまざまな分野において、エージェントが専門家によるデモンストレーションから複雑な振る舞いを学べることによって、目覚ましい成功を収めた。
既存のILメソッドは、特に世界モデルフレームワークにおける敵の報酬や価値の定式化に依存する場合、不安定な課題に直面します。
本稿では,これらの制約に対処するオンライン模倣学習手法について,密度推定のためのランダムネットワーク蒸留(RND)に基づく報酬モデルを用いて提案する。
- 参考スコア(独自算出の注目度): 25.304836126280424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation Learning (IL) has achieved remarkable success across various domains, including robotics, autonomous driving, and healthcare, by enabling agents to learn complex behaviors from expert demonstrations. However, existing IL methods often face instability challenges, particularly when relying on adversarial reward or value formulations in world model frameworks. In this work, we propose a novel approach to online imitation learning that addresses these limitations through a reward model based on random network distillation (RND) for density estimation. Our reward model is built on the joint estimation of expert and behavioral distributions within the latent space of the world model. We evaluate our method across diverse benchmarks, including DMControl, Meta-World, and ManiSkill2, showcasing its ability to deliver stable performance and achieve expert-level results in both locomotion and manipulation tasks. Our approach demonstrates improved stability over adversarial methods while maintaining expert-level performance.
- Abstract(参考訳): イミテーション・ラーニング(IL)は、ロボット工学、自律運転、医療など、さまざまな分野において、エージェントが専門家によるデモンストレーションから複雑な振る舞いを学べることによって、目覚ましい成功を収めた。
しかし、既存のILメソッドは、特に世界モデルフレームワークにおける敵の報酬や価値の定式化に依存する場合、不安定な課題に直面することが多い。
そこで本研究では,これらの制約に対処するオンライン模倣学習手法を,ランダムネットワーク蒸留(RND)に基づく報酬モデルを用いて提案する。
我々の報奨モデルは、世界モデルの潜在空間における専門家と行動分布の合同推定に基づいて構築される。
DMControlやMeta-World,ManiSkill2など,さまざまなベンチマークで評価を行い,安定した性能を実現し,移動作業と操作作業の両方で専門家レベルの結果が得られることを示す。
提案手法は,専門家レベルの性能を維持しながら,敵法に対する安定性の向上を実証する。
関連論文リスト
- Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Reward-free World Models for Online Imitation Learning [25.304836126280424]
本研究では,報酬のない世界モデルを活用したオンライン模倣学習手法を提案する。
提案手法は, 復元を伴わない潜在空間における環境力学を学習し, 効率的かつ高精度なモデリングを可能にする。
DMControl,myoSuite, ManiSkill2 など,様々なベンチマークを用いて本手法の評価を行い,既存手法と比較して優れた実証性能を示した。
論文 参考訳(メタデータ) (2024-10-17T23:13:32Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Leveraging World Model Disentanglement in Value-Based Multi-Agent
Reinforcement Learning [18.651307543537655]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。
本研究では,本手法が高サンプリング効率を実現し,敵軍を撃破する性能が他のベースラインよりも優れていることを示すために,簡単な,ハード,スーパーハードのStarCraft IIマイクロマネジメントの課題について実験的に検討した。
論文 参考訳(メタデータ) (2023-09-08T22:12:43Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - CTDS: Centralized Teacher with Decentralized Student for Multi-Agent
Reinforcement Learning [114.69155066932046]
この作品は小説を提案している。
教師モデルと学生モデルからなる分散学生(C TDS)フレームワーク。
具体的には、教師モデルは、グローバルな観察で条件付けられた個別のQ値を学ぶことで、チームの報酬を割り当てる。
学生モデルは、部分的な観察を利用して、教師モデルによって推定されるQ値を近似する。
論文 参考訳(メタデータ) (2022-03-16T06:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。