論文の概要: Beyond-Expert Performance with Limited Demonstrations: Efficient Imitation Learning with Double Exploration
- arxiv url: http://arxiv.org/abs/2506.20307v1
- Date: Wed, 25 Jun 2025 10:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.700621
- Title: Beyond-Expert Performance with Limited Demonstrations: Efficient Imitation Learning with Double Exploration
- Title(参考訳): 限定的な実証による超越的性能:二重探索による効率的な模倣学習
- Authors: Heyang Zhao, Xingrui Yu, David M. Bossens, Ivor W. Tsang, Quanquan Gu,
- Abstract要約: 我々は,ILDE(Imitation Learning with Double Exploration)と呼ばれる新しい模倣学習アルゴリズムを提案する。
ILDE は,(1) 専門家政策の収束性を高めるために高い不確実性を有する状態-作用対を報奨する探索ボーナスによる楽観的な政策最適化,(2) 実証軌道から逸脱した状態の好奇心駆動による探索により,経験以上の性能を得るという2つの側面で探索を実施している。
実験により、ILDEはサンプル効率の観点から最先端の模倣学習アルゴリズムより優れており、Atari や MuJoCo のタスクにおいて、従来の作業よりも少ない実演で、高度な性能を実現していることを示す。
- 参考スコア(独自算出の注目度): 77.36486933055907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning is a central problem in reinforcement learning where the goal is to learn a policy that mimics the expert's behavior. In practice, it is often challenging to learn the expert policy from a limited number of demonstrations accurately due to the complexity of the state space. Moreover, it is essential to explore the environment and collect data to achieve beyond-expert performance. To overcome these challenges, we propose a novel imitation learning algorithm called Imitation Learning with Double Exploration (ILDE), which implements exploration in two aspects: (1) optimistic policy optimization via an exploration bonus that rewards state-action pairs with high uncertainty to potentially improve the convergence to the expert policy, and (2) curiosity-driven exploration of the states that deviate from the demonstration trajectories to potentially yield beyond-expert performance. Empirically, we demonstrate that ILDE outperforms the state-of-the-art imitation learning algorithms in terms of sample efficiency and achieves beyond-expert performance on Atari and MuJoCo tasks with fewer demonstrations than in previous work. We also provide a theoretical justification of ILDE as an uncertainty-regularized policy optimization method with optimistic exploration, leading to a regret growing sublinearly in the number of episodes.
- Abstract(参考訳): 模倣学習は強化学習における中心的な問題であり、その目的は専門家の行動を模倣する政策を学ぶことである。
実際には、状態空間の複雑さのため、限られた数のデモンストレーションから専門家のポリシーを学ぶことはしばしば困難である。
さらに、環境を探索し、専門家以外のパフォーマンスを達成するためにデータを収集することが不可欠である。
これらの課題を克服するために,本研究では,(1)エキスパートポリシーへの収束性を高めるために,高い不確実性を持つ状態-作用対に報酬を与える探索ボーナスによる楽観的なポリシー最適化と,(2)実証軌道から逸脱し,熟練度を超える性能を得る可能性のある状態の好奇心駆動的な探索という2つの側面で探索を行う,Imitation Learning with Double Exploration (ILDE)と呼ばれる新しい模倣学習アルゴリズムを提案する。
実験により、ILDEはサンプル効率の観点から最先端の模倣学習アルゴリズムより優れており、Atari や MuJoCo のタスクにおいて、従来の作業よりも少ない実演で、高度な性能を実現していることを示す。
また、楽観的な探索を伴う不確実性規則化政策最適化手法としてILDEを理論的に正当化し、エピソード数のサブリニアな増加に繋がる。
関連論文リスト
- Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Reinforced Imitation Learning by Free Energy Principle [2.9327503320877457]
強化学習(Reinforcement Learning, RL)は、特にスパース・リワード・セッティングにおいて、大量の探索を必要とする。
イミテーション・ラーニング(IL)は、専門家によるデモンストレーションから探究なしで学ぶことができる。
自由エネルギー原理(FEP)に基づくRLとILを根本的に統一する
論文 参考訳(メタデータ) (2021-07-25T14:19:29Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Learn to Exceed: Stereo Inverse Reinforcement Learning with Concurrent
Policy Optimization [1.0965065178451106]
マルコフ決定過程において、専門家による実証を模倣し、性能を向上できる制御ポリシーを得るという課題について検討する。
主な関連する1つのアプローチは逆強化学習(IRL)であり、主に専門家によるデモンストレーションから報酬関数を推測することに焦点を当てている。
本稿では,新たな報酬と行動方針学習アプローチを通じて,学習エージェントが実証者より優れる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-21T02:16:21Z) - Policy Gradient from Demonstration and Curiosity [9.69620214666782]
本研究では,探索を促進し,本質的な報酬学習を促進するために,統合されたポリシー勾配アルゴリズムを提案する。
提案アルゴリズムは, 疎外報酬信号を用いて, シミュレーションされたタスクに対して評価を行った。
エージェントは専門家の行動を模倣し、高いリターンを維持することができることがわかった。
論文 参考訳(メタデータ) (2020-04-22T07:57:39Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。