論文の概要: Imitation Learning from Purified Demonstration
- arxiv url: http://arxiv.org/abs/2310.07143v1
- Date: Wed, 11 Oct 2023 02:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 00:45:14.489105
- Title: Imitation Learning from Purified Demonstration
- Title(参考訳): 浄化デモからの模倣学習
- Authors: Yunke Wang, Minjing Dong, Bo Du, Chang Xu
- Abstract要約: 本研究では,不完全な実演における潜在的な摂動を浄化し,浄化された実演から模擬学習を行うことを提案する。
提案手法を裏付ける理論的証拠を提示し, 精製された実演分布と最適実演分布との総分散距離を上界化できることを実証する。
- 参考スコア(独自算出の注目度): 55.23663861003027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning has emerged as a promising approach for addressing
sequential decision-making problems, with the assumption that expert
demonstrations are optimal. However, in real-world scenarios, expert
demonstrations are often imperfect, leading to challenges in effectively
applying imitation learning. While existing research has focused on optimizing
with imperfect demonstrations, the training typically requires a certain
proportion of optimal demonstrations to guarantee performance. To tackle these
problems, we propose to purify the potential perturbations in imperfect
demonstrations and subsequently conduct imitation learning from purified
demonstrations. Motivated by the success of diffusion models, we introduce a
two-step purification via the diffusion process. In the first step, we apply a
forward diffusion process to effectively smooth out the potential perturbations
in imperfect demonstrations by introducing additional noise. Subsequently, a
reverse generative process is utilized to recover the optimal expert
demonstrations from the diffused ones. We provide theoretical evidence
supporting our approach, demonstrating that total variance distance between the
purified and optimal demonstration distributions can be upper-bounded. The
evaluation results on MuJoCo demonstrate the effectiveness of our method from
different aspects.
- Abstract(参考訳): 模倣学習は、専門家のデモンストレーションが最適であると仮定して、逐次的な意思決定問題に対処するための有望なアプローチとして現れてきた。
しかし、現実のシナリオでは、専門家によるデモンストレーションはしばしば不完全であり、模倣学習を効果的に適用することの難題に繋がる。
既存の研究は不完全なデモンストレーションによる最適化に重点を置いているが、トレーニングは通常、パフォーマンスを保証するために一定の割合の最適なデモンストレーションを必要とする。
これらの問題に対処するために,不完全な実演における潜在的な摂動を浄化し,その後に純化された実演から模倣学習を行うことを提案する。
拡散モデルの成功に動機づけられ,拡散過程を通じて二段階の浄化を行う。
最初のステップでは、雑音を付加することにより、不完全な実演における潜在的摂動を効果的に緩和するために前方拡散プロセスを適用する。
その後、逆生成プロセスを利用して、拡散されたものから最適な専門家のデモンストレーションを回収する。
本手法を裏付ける理論的証拠を提示し, 純化分布と最適実演分布間の全分散距離を上限値とすることを示す。
MuJoCoの評価結果は,提案手法の有効性を異なる側面から示している。
関連論文リスト
- Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning [48.595574101874575]
現実の世界では、専門家によるデモは不完全である可能性が高い。
正のラベル付き対逆模倣学習アルゴリズムを開発した。
エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
論文 参考訳(メタデータ) (2023-02-13T11:26:44Z) - Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文 参考訳(メタデータ) (2022-11-13T07:45:06Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Let Me Check the Examples: Enhancing Demonstration Learning via Explicit
Imitation [9.851250429233634]
デモ学習は、いくつかのショット設定で回答されたデモを提供することで、迅速な予測を導くことを目的としている。
既存の作業は、追加操作なしでプロンプトテンプレートのデモとして、回答された例のみをコーポラ化する。
我々は、人間のレビュー行動を明確に模倣することで、実証学習を強化するためにImitation DEMOnstration Learning (Imitation-Demo)を導入した。
論文 参考訳(メタデータ) (2022-08-31T06:59:36Z) - Evaluating the Effectiveness of Corrective Demonstrations and a Low-Cost
Sensor for Dexterous Manipulation [0.5669790037378094]
模倣学習は、ロボットが巧妙な操作能力を獲得するのを助ける、有望なアプローチである。
このような追加デモンストレーションの特性と性能への影響について検討する。
本稿では、LeapMotionのような安価な視覚ベースのセンサーを用いて、デモの提供コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2022-04-15T19:55:46Z) - Contrastive Demonstration Tuning for Pre-trained Language Models [59.90340768724675]
デモの例は、プロンプトチューニングの優れた最終パフォーマンスに不可欠である。
提案手法は次の通りである: (i) 従来の急速学習アプローチにプラグイン; (ii) 多数のカテゴリを持つ広範囲な分類タスクに拡張。
16のデータセットに対する実験結果から,従来のLM-BFFとP-tuningを統合した手法により,性能が向上することが示された。
論文 参考訳(メタデータ) (2022-04-09T05:30:48Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Shaping Rewards for Reinforcement Learning with Imperfect Demonstrations
using Generative Models [18.195406135434503]
本稿では,報酬関数を状態と行動に依存したポテンシャルに形成することにより,強化と模倣学習を組み合わせた手法を提案する。
このことは,まず探索する価値のある状態空間と行動空間の高価値領域を指定することで,政策学習を加速させることを示す。
特に、これらのポテンシャルを表現するために、正規化フローとジェネレーティブ・アドバイサル・ネットワークの両方について検討する。
論文 参考訳(メタデータ) (2020-11-02T20:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。