論文の概要: Self-Imitation Learning from Demonstrations
- arxiv url: http://arxiv.org/abs/2203.10905v1
- Date: Mon, 21 Mar 2022 11:56:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 18:13:24.719435
- Title: Self-Imitation Learning from Demonstrations
- Title(参考訳): 実演による自己模倣学習
- Authors: Georgiy Pshikhachev, Dmitry Ivanov, Vladimir Egorov, Aleksei Shpilman
- Abstract要約: セルフ・イミテーション・ラーニング(Self-Imitation Learning)は、エージェントの過去の良い経験を利用して、準最適デモンストレーションから学ぶ。
SILfDはノイズの多いデモから学習できることを示す。
また、スパース環境における既存の最先端LfDアルゴリズムよりもSILfDの方が優れていることも見出した。
- 参考スコア(独自算出の注目度): 4.907551775445731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the numerous breakthroughs achieved with Reinforcement Learning (RL),
solving environments with sparse rewards remains a challenging task that
requires sophisticated exploration. Learning from Demonstrations (LfD) remedies
this issue by guiding the agent's exploration towards states experienced by an
expert. Naturally, the benefits of this approach hinge on the quality of
demonstrations, which are rarely optimal in realistic scenarios. Modern LfD
algorithms require meticulous tuning of hyperparameters that control the
influence of demonstrations and, as we show in the paper, struggle with
learning from suboptimal demonstrations. To address these issues, we extend
Self-Imitation Learning (SIL), a recent RL algorithm that exploits the agent's
past good experience, to the LfD setup by initializing its replay buffer with
demonstrations. We denote our algorithm as SIL from Demonstrations (SILfD). We
empirically show that SILfD can learn from demonstrations that are noisy or far
from optimal and can automatically adjust the influence of demonstrations
throughout the training without additional hyperparameters or handcrafted
schedules. We also find SILfD superior to the existing state-of-the-art LfD
algorithms in sparse environments, especially when demonstrations are highly
suboptimal.
- Abstract(参考訳): 強化学習(rl)によって達成された多くのブレークスルーにもかかわらず、少ない報酬で環境を解決することは、高度な探索を必要とする課題である。
実証から学ぶ(LfD)は、専門家が経験した状態へのエージェントの探索を導くことでこの問題を修復する。
当然、このアプローチの利点はデモの質に左右され、現実的なシナリオで最適なことはめったにない。
最近のlfdアルゴリズムでは、デモの影響を制御するハイパーパラメータの微調整が必要であり、論文で示しているように、サブオプティカルなデモから学ぶのに苦労している。
これらの問題に対処するため,我々は,エージェントの過去の経験を生かした最近のrlアルゴリズムである自己模倣学習(sil)を,実演でリプレイバッファを初期化することによりlfdセットアップに拡張した。
提案アルゴリズムは,SIL from Demonstrations (SILfD) と呼ぶ。
実験により,SILfDはノイズの多い,あるいは最適から遠く離れたデモから学習でき,トレーニング全体を通して,追加のハイパーパラメータや手作りスケジュールを使わずに,実演の影響を自動的に調整できることを示した。
また,SILfDはスパース環境における既存のLfDアルゴリズムよりも優れている。
関連論文リスト
- Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Dr.ICL: Demonstration-Retrieved In-context Learning [29.142262267850704]
インコンテキスト学習(ICL)は、LLMを使用するための強力なパラダイムとして、数発のデモでタスクを実行するために大きな言語モデルを教える。
最近の研究では、利用可能なデモのプールからの入力に対して意味論的に類似したデモを取得することで、より良いパフォーマンスが得られることが示唆されている。
この研究は、BM25のような単純な単語オーバーラップ類似度対策でさえ、ランダムに選択された実演よりも優れていることを示すことで、検索ベースのICLアプローチの適用性を拡大する。
論文 参考訳(メタデータ) (2023-05-23T14:55:25Z) - Learning Complicated Manipulation Skills via Deterministic Policy with
Limited Demonstrations [9.640594614636049]
深層強化学習はマニピュレータのポリシーを効率的に開発することができる。
実際に十分な高品質なデモを収集するのには時間がかかる。
人間のデモはロボットには適さないかもしれない。
論文 参考訳(メタデータ) (2023-03-29T05:56:44Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Improving Learning from Demonstrations by Learning from Experience [4.605233477425785]
我々は、専門家から経験から学びへスムーズに移行できるTD3fGという新しいアルゴリズムを提案する。
本アルゴリズムは,MUJOCO環境において,限定的かつ準最適な実演を行い,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-16T00:40:31Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。