論文の概要: Improving Learning from Demonstrations by Learning from Experience
- arxiv url: http://arxiv.org/abs/2111.08156v1
- Date: Tue, 16 Nov 2021 00:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 05:28:01.734436
- Title: Improving Learning from Demonstrations by Learning from Experience
- Title(参考訳): 経験から学ぶことで実演から学ぶことを改善する
- Authors: Haofeng Liu, Yiwen Chen, Jiayi Tan, Marcelo H Ang Jr
- Abstract要約: 我々は、専門家から経験から学びへスムーズに移行できるTD3fGという新しいアルゴリズムを提案する。
本アルゴリズムは,MUJOCO環境において,限定的かつ準最適な実演を行い,優れた性能を実現する。
- 参考スコア(独自算出の注目度): 4.605233477425785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How to make imitation learning more general when demonstrations are
relatively limited has been a persistent problem in reinforcement learning
(RL). Poor demonstrations lead to narrow and biased date distribution,
non-Markovian human expert demonstration makes it difficult for the agent to
learn, and over-reliance on sub-optimal trajectories can make it hard for the
agent to improve its performance. To solve these problems we propose a new
algorithm named TD3fG that can smoothly transition from learning from experts
to learning from experience. Our algorithm achieves good performance in the
MUJOCO environment with limited and sub-optimal demonstrations. We use behavior
cloning to train the network as a reference action generator and utilize it in
terms of both loss function and exploration noise. This innovation can help
agents extract a priori knowledge from demonstrations while reducing the
detrimental effects of the poor Markovian properties of the demonstrations. It
has a better performance compared to the BC+ fine-tuning and DDPGfD approach,
especially when the demonstrations are relatively limited. We call our method
TD3fG meaning TD3 from a generator.
- Abstract(参考訳): デモンストレーションが比較的限定されている場合、模倣学習をもっと一般的にする方法は、強化学習(rl)において永続的な問題となっている。
粗悪なデモンストレーションは、狭く偏りのある日付分布をもたらし、非マルコフの人間専門家によるデモンストレーションは、エージェントが学ぶのが難しく、準最適軌道への過度な依存は、エージェントがそのパフォーマンスを改善するのを難しくする。
これらの問題を解決するために,TD3fGという新しいアルゴリズムを提案する。
本アルゴリズムは,MUJOCO環境において,限定的かつ準最適な実演を行い,優れた性能を実現する。
行動クローニングを用いて,ネットワークを参照行動生成器として訓練し,損失関数と探索ノイズの両方の観点から利用した。
この革新は、エージェントがデモンストレーションから事前知識を抽出し、デモの貧弱なマルコフ特性の有害な影響を低減させるのに役立つ。
BC+のファインチューニングとDDPGfDのアプローチと比較して、特にデモが比較的限定された場合にはパフォーマンスが向上する。
TD3fGはジェネレータからTD3を意味する。
関連論文リスト
- "Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations [3.637365301757111]
専門家デモ(RLED)からの強化学習(Reinforcement Learning from Expert Demonstrations)のような手法は、学習プロセス中のエージェント探索を促進するために外部の専門家によるデモンストレーションを導入します。
学習にとって最も有益な人間のデモのベストセットをどうやって選ぶかが、大きな関心事になります。
本稿では,学習エージェントが軌跡に基づく特徴空間において,専門家による実演を最適化したクエリを生成できるアルゴリズムEARLYを提案する。
論文 参考訳(メタデータ) (2024-06-05T08:52:21Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Learning Complicated Manipulation Skills via Deterministic Policy with
Limited Demonstrations [9.640594614636049]
深層強化学習はマニピュレータのポリシーを効率的に開発することができる。
実際に十分な高品質なデモを収集するのには時間がかかる。
人間のデモはロボットには適さないかもしれない。
論文 参考訳(メタデータ) (2023-03-29T05:56:44Z) - Leveraging Demonstrations to Improve Online Learning: Quality Matters [54.98983862640944]
改善の度合いは実演データの品質に左右されることが示されている。
ベイズの法則を通したコヒーレントな方法で実演データを利用する情報TSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T08:49:12Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Self-Imitation Learning from Demonstrations [4.907551775445731]
セルフ・イミテーション・ラーニング(Self-Imitation Learning)は、エージェントの過去の良い経験を利用して、準最適デモンストレーションから学ぶ。
SILfDはノイズの多いデモから学習できることを示す。
また、スパース環境における既存の最先端LfDアルゴリズムよりもSILfDの方が優れていることも見出した。
論文 参考訳(メタデータ) (2022-03-21T11:56:56Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z) - Efficiently Guiding Imitation Learning Agents with Human Gaze [28.7222865388462]
我々は,3つの模擬学習手法を用いて訓練されたエージェントの性能を高めるために,人間のデモ隊の視線手がかりを使用する。
強化学習エージェントの注意とヒトの視線との類似性に基づいて, 視線データを計算的に効率的に活用するための新しいアプローチを提案する。
提案手法は,BCでは95%,BCOでは343%,T-REXでは390%,Atariゲームでは平均20以上のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-28T00:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。