論文の概要: On Pathologies in KL-Regularized Reinforcement Learning from Expert
Demonstrations
- arxiv url: http://arxiv.org/abs/2212.13936v1
- Date: Wed, 28 Dec 2022 16:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 14:16:01.371233
- Title: On Pathologies in KL-Regularized Reinforcement Learning from Expert
Demonstrations
- Title(参考訳): 専門家によるKL正規化強化学習における病理
- Authors: Tim G. J. Rudner and Cong Lu and Michael A. Osborne and Yarin Gal and
Yee Whye Teh
- Abstract要約: 我々は,KL-正規化強化学習と行動基準ポリシを併用することで,病理訓練のダイナミクスに悩まされることを示した。
非パラメトリックな行動参照ポリシーで治療できることを示す。
- 参考スコア(独自算出の注目度): 79.49929463310588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: KL-regularized reinforcement learning from expert demonstrations has proved
successful in improving the sample efficiency of deep reinforcement learning
algorithms, allowing them to be applied to challenging physical real-world
tasks. However, we show that KL-regularized reinforcement learning with
behavioral reference policies derived from expert demonstrations can suffer
from pathological training dynamics that can lead to slow, unstable, and
suboptimal online learning. We show empirically that the pathology occurs for
commonly chosen behavioral policy classes and demonstrate its impact on sample
efficiency and online policy performance. Finally, we show that the pathology
can be remedied by non-parametric behavioral reference policies and that this
allows KL-regularized reinforcement learning to significantly outperform
state-of-the-art approaches on a variety of challenging locomotion and
dexterous hand manipulation tasks.
- Abstract(参考訳): kl-regularized reinforcement learning from expert demonstrationsは、深層強化学習アルゴリズムのサンプル効率を向上させることに成功した。
しかし,kl-regularized reinforcement learning with behavior reference policys from expert demonstrationsでは,遅滞,不安定,準最適オンライン学習につながる病的訓練ダイナミクスに苦しむ可能性がある。
病理学は一般に選択された行動政策クラスで発生し,その効果がサンプル効率やオンライン政策性能に与える影響を実証する。
最後に,非パラメトリック行動規範ポリシーによって病理を修復し,kl-regularized reinforcement learningにより,様々な課題のあるロコモーションやデクスタースハンド操作タスクにおいて,最先端のアプローチを著しく上回ることができることを示した。
関連論文リスト
- REACT: Revealing Evolutionary Action Consequence Trajectories for Interpretable Reinforcement Learning [7.889696505137217]
強化学習の解釈可能性を高めるために,Revealing Evolutionary Action Consequence Trajectories (REACT)を提案する。
トレーニング中に学習した最適な振る舞いに基づくRLモデルの一般的な実践とは対照的に、エッジケースの軌跡の範囲を考慮すると、それらの固有の振る舞いをより包括的に理解することができると仮定する。
本研究は,RLモデルの動作の微妙な側面を最適性能を超えて明らかにし,解釈可能性の向上に寄与することを示す。
論文 参考訳(メタデータ) (2024-04-04T10:56:30Z) - Automatic Curriculum Learning with Gradient Reward Signals [0.0]
学生モデルの勾配標準情報を利用した教師モデルが学習カリキュラムを動的に適応する枠組みを導入する。
本研究は,教師が困難で達成可能な学習シーケンスを作成できる能力に,勾配規範の報奨がどのような影響を及ぼすかを分析し,最終的に生徒のパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-12-21T04:19:43Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Exploiting Symmetry and Heuristic Demonstrations in Off-policy
Reinforcement Learning for Robotic Manipulation [1.7901837062462316]
本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。
提案手法は,産業用アームの2つのポイント・ツー・ポイント・リーチタスクによって,障害物を伴わずに検証される。
提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の優位性を示している。
論文 参考訳(メタデータ) (2023-04-12T11:38:01Z) - Accelerating Self-Imitation Learning from Demonstrations via Policy
Constraints and Q-Ensemble [6.861783783234304]
本稿では,A-SILfDという実演法から学ぶことを提案する。
A-SILfDは専門家のデモンストレーションをエージェントの成功経験として扱い、政策改善を制約するために経験を使用する。
4つのMujoco連続制御タスクにおいて、A-SILfDはオンライントレーニングの15万ステップの後に、ベースラインメソッドを大幅に上回ることができる。
論文 参考訳(メタデータ) (2022-12-07T10:29:13Z) - Automated Fidelity Assessment for Strategy Training in Inpatient
Rehabilitation using Natural Language Processing [53.096237570992294]
戦略トレーニング (Strategy Training) とは、脳卒中後の認知障害患者に障害を減らすためのスキルを教える、リハビリテーションのアプローチである。
標準化された忠実度評価は治療原則の遵守度を測定するために用いられる。
本研究では,ルールベースNLPアルゴリズム,長短項メモリ(LSTM)モデル,および変換器(BERT)モデルからの双方向エンコーダ表現を開発した。
論文 参考訳(メタデータ) (2022-09-14T15:33:30Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Towards Understanding the Adversarial Vulnerability of Skeleton-based
Action Recognition [133.35968094967626]
骨格に基づく行動認識は、動的状況への強い適応性から注目を集めている。
ディープラーニング技術の助けを借りて、かなり進歩し、現在、良識のある環境で約90%の精度を達成している。
異なる対角的環境下での骨格に基づく行動認識の脆弱性に関する研究はいまだ研究されていない。
論文 参考訳(メタデータ) (2020-05-14T17:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。