論文の概要: Accelerating Self-Imitation Learning from Demonstrations via Policy
Constraints and Q-Ensemble
- arxiv url: http://arxiv.org/abs/2212.03562v1
- Date: Wed, 7 Dec 2022 10:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 16:43:52.052475
- Title: Accelerating Self-Imitation Learning from Demonstrations via Policy
Constraints and Q-Ensemble
- Title(参考訳): 政策制約とQ-Ensembleによる自己刺激学習の促進
- Authors: Chao Li
- Abstract要約: 本稿では,A-SILfDという実演法から学ぶことを提案する。
A-SILfDは専門家のデモンストレーションをエージェントの成功経験として扱い、政策改善を制約するために経験を使用する。
4つのMujoco連続制御タスクにおいて、A-SILfDはオンライントレーニングの15万ステップの後に、ベースラインメソッドを大幅に上回ることができる。
- 参考スコア(独自算出の注目度): 6.861783783234304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) provides a new way to generate robot
control policy. However, the process of training control policy requires
lengthy exploration, resulting in a low sample efficiency of reinforcement
learning (RL) in real-world tasks. Both imitation learning (IL) and learning
from demonstrations (LfD) improve the training process by using expert
demonstrations, but imperfect expert demonstrations can mislead policy
improvement. Offline to Online reinforcement learning requires a lot of offline
data to initialize the policy, and distribution shift can easily lead to
performance degradation during online fine-tuning. To solve the above problems,
we propose a learning from demonstrations method named A-SILfD, which treats
expert demonstrations as the agent's successful experiences and uses
experiences to constrain policy improvement. Furthermore, we prevent
performance degradation due to large estimation errors in the Q-function by the
ensemble Q-functions. Our experiments show that A-SILfD can significantly
improve sample efficiency using a small number of different quality expert
demonstrations. In four Mujoco continuous control tasks, A-SILfD can
significantly outperform baseline methods after 150,000 steps of online
training and is not misled by imperfect expert demonstrations during training.
- Abstract(参考訳): 深層強化学習(DRL)はロボット制御ポリシーを生成する新しい方法を提供する。
しかしながら、トレーニング制御ポリシのプロセスは長い探索を必要とするため、現実世界のタスクにおいて強化学習(RL)のサンプル効率が低い。
模擬学習 (IL) と実演からの学習 (LfD) の両方が専門家によるデモンストレーションを用いて訓練プロセスを改善するが、不完全な専門家による実演は政策改善を誤解させる可能性がある。
オフラインからオンラインへの強化学習は、ポリシーを初期化するために多くのオフラインデータを必要とする。
上記の課題を解決するために,A-SILfDという,専門家による実演をエージェントの成功体験として扱い,政策改善を制約するための経験を学習する手法を提案する。
さらに, アンサンブルQ関数によるQ関数の推定誤差が大きいため, 性能劣化を防止する。
実験の結果,A-SILfDは少数の品質専門家による実験により,サンプル効率を大幅に向上できることがわかった。
4つのMujoco連続制御タスクでは、A-SILfDはオンライントレーニングの15万ステップ後にベースラインメソッドを著しく上回り、トレーニング中に不完全な専門家のデモンストレーションによって誤解されることはない。
関連論文リスト
- Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Curriculum Learning in Job Shop Scheduling using Reinforcement Learning [0.3867363075280544]
深層強化学習(DRL)は、困難な事例に対応するエージェントの計画戦略を動的に調整する。
学習プロセスの設計に,同じ問題サイズ内での難易度の変数を積極的に組み込むことにより,基礎的手法としてのDLRをさらに改善する。
論文 参考訳(メタデータ) (2023-05-17T13:15:27Z) - Learning Complicated Manipulation Skills via Deterministic Policy with
Limited Demonstrations [9.640594614636049]
深層強化学習はマニピュレータのポリシーを効率的に開発することができる。
実際に十分な高品質なデモを収集するのには時間がかかる。
人間のデモはロボットには適さないかもしれない。
論文 参考訳(メタデータ) (2023-03-29T05:56:44Z) - Leveraging Demonstrations to Improve Online Learning: Quality Matters [54.98983862640944]
改善の度合いは実演データの品質に左右されることが示されている。
ベイズの法則を通したコヒーレントな方法で実演データを利用する情報TSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T08:49:12Z) - On Pathologies in KL-Regularized Reinforcement Learning from Expert
Demonstrations [79.49929463310588]
我々は,KL-正規化強化学習と行動基準ポリシを併用することで,病理訓練のダイナミクスに悩まされることを示した。
非パラメトリックな行動参照ポリシーで治療できることを示す。
論文 参考訳(メタデータ) (2022-12-28T16:29:09Z) - Demonstration-Guided Reinforcement Learning with Learned Skills [23.376115889936628]
実証誘導強化学習(RL)は複雑な行動を学ぶ上で有望なアプローチである。
本研究では、この共有サブタスク構造を利用して、実演誘導RLの効率を向上させることを目的とする。
本稿では,提案する実演を効率的に活用する実演誘導RLアルゴリズムであるSkiLD(Skill-based Learning with Demonstrations)を提案する。
論文 参考訳(メタデータ) (2021-07-21T17:59:34Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。