Fugu-MT 論文翻訳(概要): Accelerating Self-Imitation Learning from Demonstrations via Policy Constraints and Q-Ensemble

論文の概要: Accelerating Self-Imitation Learning from Demonstrations via Policy Constraints and Q-Ensemble

arxiv url: http://arxiv.org/abs/2212.03562v1
Date: Wed, 7 Dec 2022 10:29:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-08 16:43:52.052475
Title: Accelerating Self-Imitation Learning from Demonstrations via Policy Constraints and Q-Ensemble
Title（参考訳）: 政策制約とQ-Ensembleによる自己刺激学習の促進
Authors: Chao Li
Abstract要約: 本稿では,A-SILfDという実演法から学ぶことを提案する。 A-SILfDは専門家のデモンストレーションをエージェントの成功経験として扱い、政策改善を制約するために経験を使用する。 4つのMujoco連続制御タスクにおいて、A-SILfDはオンライントレーニングの15万ステップの後に、ベースラインメソッドを大幅に上回ることができる。
参考スコア（独自算出の注目度）: 6.861783783234304
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep reinforcement learning (DRL) provides a new way to generate robot control policy. However, the process of training control policy requires lengthy exploration, resulting in a low sample efficiency of reinforcement learning (RL) in real-world tasks. Both imitation learning (IL) and learning from demonstrations (LfD) improve the training process by using expert demonstrations, but imperfect expert demonstrations can mislead policy improvement. Offline to Online reinforcement learning requires a lot of offline data to initialize the policy, and distribution shift can easily lead to performance degradation during online fine-tuning. To solve the above problems, we propose a learning from demonstrations method named A-SILfD, which treats expert demonstrations as the agent's successful experiences and uses experiences to constrain policy improvement. Furthermore, we prevent performance degradation due to large estimation errors in the Q-function by the ensemble Q-functions. Our experiments show that A-SILfD can significantly improve sample efficiency using a small number of different quality expert demonstrations. In four Mujoco continuous control tasks, A-SILfD can significantly outperform baseline methods after 150,000 steps of online training and is not misled by imperfect expert demonstrations during training.
Abstract（参考訳）: 深層強化学習(DRL)はロボット制御ポリシーを生成する新しい方法を提供する。しかしながら、トレーニング制御ポリシのプロセスは長い探索を必要とするため、現実世界のタスクにおいて強化学習(RL)のサンプル効率が低い。模擬学習 (IL) と実演からの学習 (LfD) の両方が専門家によるデモンストレーションを用いて訓練プロセスを改善するが、不完全な専門家による実演は政策改善を誤解させる可能性がある。オフラインからオンラインへの強化学習は、ポリシーを初期化するために多くのオフラインデータを必要とする。上記の課題を解決するために,A-SILfDという,専門家による実演をエージェントの成功体験として扱い,政策改善を制約するための経験を学習する手法を提案する。さらに, アンサンブルQ関数によるQ関数の推定誤差が大きいため, 性能劣化を防止する。実験の結果,A-SILfDは少数の品質専門家による実験により,サンプル効率を大幅に向上できることがわかった。 4つのMujoco連続制御タスクでは、A-SILfDはオンライントレーニングの15万ステップ後にベースラインメソッドを著しく上回り、トレーニング中に不完全な専門家のデモンストレーションによって誤解されることはない。

関連論文リスト

Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文参考訳（メタデータ） (2025-04-10T16:14:17Z)
Skill-Enhanced Reinforcement Learning Acceleration from Demonstrations [23.15178050525514]
本稿では,Skill-enhanced Reinforcement Learning Acceleration (SeRLA) と呼ばれる2段階の手法を提案する。 SeRLAは、スキルレベルの正正負の学習モデルを導入し、有用なスキル事前知識を抽出する。次に、スキルベースのソフトアクター批判アルゴリズムをデプロイし、下流のオンラインRLステージで取得した知識を活用する。
論文参考訳（メタデータ） (2024-12-09T04:58:14Z)
Equivariant Offline Reinforcement Learning [7.822389399560674]
実演数が少ないオフラインRLに対して,$SO(2)$-equivariantなニューラルネットワークを使用することを検討した。実験の結果,保守的Q-Learning(CQL)とImplicit Q-Learning(IQL)の同変バージョンは,同変でないQ-Learningよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-06-20T03:02:49Z)
Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
"Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations [3.637365301757111]
専門家デモ(RLED)からの強化学習(Reinforcement Learning from Expert Demonstrations)のような手法は、学習プロセス中のエージェント探索を促進するために外部の専門家によるデモンストレーションを導入します。学習にとって最も有益な人間のデモのベストセットをどうやって選ぶかが、大きな関心事になります。本稿では,学習エージェントが軌跡に基づく特徴空間において,専門家による実演を最適化したクエリを生成できるアルゴリズムEARLYを提案する。
論文参考訳（メタデータ） (2024-06-05T08:52:21Z)
Reverse Forward Curriculum Learning for Extreme Sample and Demonstration Efficiency in Reinforcement Learning [17.092640837991883]
強化学習(Reinforcement Learning, RL)は、環境相互作用を通じてポリシーを学ぶための有望な枠組みである。ひとつの方向性として、オフラインデータによるRLの拡張による望ましいタスクの実証があるが、過去の作業では、多くの高品質なデモデータが必要になることが多い。提案手法における逆カリキュラムと前方カリキュラムの組み合わせ(RFCL)は,実演とサンプル効率を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-05-06T11:33:12Z)
Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight [20.92646531472541]
本稿では,Reinforcement Learning(RL)とImitation Learning(IL)のサンプル効率を組み合わせた新しいアプローチを提案する。本フレームワークは、RLを用いた3段階の教員政策と、ILによる学生政策に蒸留する特権状態情報と、RLによる適応微調整とを含む。テストでは、スクラッチからRLが失敗するシナリオだけでなく、ロバストさとパフォーマンスの両方で既存のILメソッドよりも優れています。
論文参考訳（メタデータ） (2024-03-18T19:25:57Z)
Leveraging Demonstrations to Improve Online Learning: Quality Matters [54.98983862640944]
改善の度合いは実演データの品質に左右されることが示されている。ベイズの法則を通したコヒーレントな方法で実演データを利用する情報TSアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-07T08:49:12Z)
On Pathologies in KL-Regularized Reinforcement Learning from Expert Demonstrations [79.49929463310588]
我々は,KL-正規化強化学習と行動基準ポリシを併用することで,病理訓練のダイナミクスに悩まされることを示した。非パラメトリックな行動参照ポリシーで治療できることを示す。
論文参考訳（メタデータ） (2022-12-28T16:29:09Z)
Demonstration-Guided Reinforcement Learning with Learned Skills [23.376115889936628]
実証誘導強化学習(RL)は複雑な行動を学ぶ上で有望なアプローチである。本研究では、この共有サブタスク構造を利用して、実演誘導RLの効率を向上させることを目的とする。本稿では,提案する実演を効率的に活用する実演誘導RLアルゴリズムであるSkiLD(Skill-based Learning with Demonstrations)を提案する。
論文参考訳（メタデータ） (2021-07-21T17:59:34Z)
Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。 SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文参考訳（メタデータ） (2021-06-10T06:29:59Z)
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文参考訳（メタデータ） (2020-06-16T17:54:41Z)
Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文参考訳（メタデータ） (2020-04-01T15:57:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。