論文の概要: Imitation Learning from Purified Demonstrations
- arxiv url: http://arxiv.org/abs/2310.07143v2
- Date: Tue, 6 Aug 2024 00:51:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 19:41:33.876586
- Title: Imitation Learning from Purified Demonstrations
- Title(参考訳): 清浄なデモからの模倣学習
- Authors: Yunke Wang, Minjing Dong, Yukun Zhao, Bo Du, Chang Xu,
- Abstract要約: 本稿では,まず不完全な実演における潜在的な雑音を除去し,その後,これらの実演から模擬学習を行うことを提案する。
提案手法を裏付ける理論的証拠を提示し, 精製された実演と最適実演との距離を有界化できることを実証する。
- 参考スコア(独自算出の注目度): 47.52316615371601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning has emerged as a promising approach for addressing sequential decision-making problems, with the assumption that expert demonstrations are optimal. However, in real-world scenarios, most demonstrations are often imperfect, leading to challenges in the effectiveness of imitation learning. While existing research has focused on optimizing with imperfect demonstrations, the training typically requires a certain proportion of optimal demonstrations to guarantee performance. To tackle these problems, we propose to purify the potential noises in imperfect demonstrations first, and subsequently conduct imitation learning from these purified demonstrations. Motivated by the success of diffusion model, we introduce a two-step purification via diffusion process. In the first step, we apply a forward diffusion process to smooth potential noises in imperfect demonstrations by introducing additional noise. Subsequently, a reverse generative process is utilized to recover the optimal demonstration from the diffused ones. We provide theoretical evidence supporting our approach, demonstrating that the distance between the purified and optimal demonstration can be bounded. Empirical results on MuJoCo and RoboSuite demonstrate the effectiveness of our method from different aspects.
- Abstract(参考訳): シミュレーション学習は、専門家によるデモンストレーションが最適であると仮定して、シーケンシャルな意思決定問題に対処するための有望なアプローチとして現れてきた。
しかし、現実世界のシナリオでは、ほとんどのデモは不完全であり、模倣学習の有効性の課題に繋がる。
既存の研究では、不完全なデモンストレーションで最適化することに重点を置いているが、通常、パフォーマンスを保証するために最適なデモを一定の割合で行う必要がある。
これらの問題に対処するために、まず不完全な実演における潜在的なノイズを浄化し、その後、これらの実演から模倣学習を行うことを提案する。
拡散モデルの成功により,拡散過程による2段階の浄化が導入された。
最初のステップでは、付加雑音を導入することで、不完全な実演におけるポテンシャル雑音の滑らか化に前方拡散プロセスを適用する。
その後、逆生成プロセスを使用して、拡散されたものから最適な実演を回収する。
提案手法を裏付ける理論的証拠を提示し, 精製された実演と最適実演との距離を有界化できることを実証する。
MuJoCo と RoboSuite の実証実験結果から,本手法の有効性が示唆された。
関連論文リスト
- Good Better Best: Self-Motivated Imitation Learning for noisy
Demonstrations [12.627982138086892]
イミテーション・ラーニングは,エージェントの行動と専門家による実演の相違を最小限にすることで,政策の発見を目指す。
本稿では,現在の政策に劣る政策によって収集された実演を段階的にフィルタリングする自己モチベーション・イミテーション・ラーニング(SMILE)を提案する。
論文 参考訳(メタデータ) (2023-10-24T13:09:56Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Sample-efficient Adversarial Imitation Learning [45.400080101596956]
状態と行動表現を学習するための自己教師付き表現に基づく対向的模倣学習法を提案する。
本研究は,M MuJoCo上での既存対向模倣学習法に対して,100対の専門的状態-作用ペアに制限された設定で相対的に39%改善したことを示す。
論文 参考訳(メタデータ) (2023-03-14T12:36:01Z) - Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning [48.595574101874575]
現実の世界では、専門家によるデモは不完全である可能性が高い。
正のラベル付き対逆模倣学習アルゴリズムを開発した。
エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
論文 参考訳(メタデータ) (2023-02-13T11:26:44Z) - Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文 参考訳(メタデータ) (2022-11-13T07:45:06Z) - Contrastive Demonstration Tuning for Pre-trained Language Models [59.90340768724675]
デモの例は、プロンプトチューニングの優れた最終パフォーマンスに不可欠である。
提案手法は次の通りである: (i) 従来の急速学習アプローチにプラグイン; (ii) 多数のカテゴリを持つ広範囲な分類タスクに拡張。
16のデータセットに対する実験結果から,従来のLM-BFFとP-tuningを統合した手法により,性能が向上することが示された。
論文 参考訳(メタデータ) (2022-04-09T05:30:48Z) - Shaping Rewards for Reinforcement Learning with Imperfect Demonstrations
using Generative Models [18.195406135434503]
本稿では,報酬関数を状態と行動に依存したポテンシャルに形成することにより,強化と模倣学習を組み合わせた手法を提案する。
このことは,まず探索する価値のある状態空間と行動空間の高価値領域を指定することで,政策学習を加速させることを示す。
特に、これらのポテンシャルを表現するために、正規化フローとジェネレーティブ・アドバイサル・ネットワークの両方について検討する。
論文 参考訳(メタデータ) (2020-11-02T20:32:05Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。