論文の概要: Simplifying Deep Reinforcement Learning via Self-Supervision
- arxiv url: http://arxiv.org/abs/2106.05526v1
- Date: Thu, 10 Jun 2021 06:29:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:15:11.744505
- Title: Simplifying Deep Reinforcement Learning via Self-Supervision
- Title(参考訳): 自己監督による深層強化学習の簡易化
- Authors: Daochen Zha, Kwei-Herng Lai, Kaixiong Zhou, Xia Hu
- Abstract要約: 自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
- 参考スコア(独自算出の注目度): 51.2400839966489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised regression to demonstrations has been demonstrated to be a stable
way to train deep policy networks. We are motivated to study how we can take
full advantage of supervised loss functions for stably training deep
reinforcement learning agents. This is a challenging task because it is unclear
how the training data could be collected to enable policy improvement. In this
work, we propose Self-Supervised Reinforcement Learning (SSRL), a simple
algorithm that optimizes policies with purely supervised losses. We demonstrate
that, without policy gradient or value estimation, an iterative procedure of
``labeling" data and supervised regression is sufficient to drive stable policy
improvement. By selecting and imitating trajectories with high episodic
rewards, SSRL is surprisingly competitive to contemporary algorithms with more
stable performance and less running time, showing the potential of solving
reinforcement learning with supervised learning techniques. The code is
available at https://github.com/daochenzha/SSRL
- Abstract(参考訳): デモに対する改善された回帰は、ディープポリシーネットワークをトレーニングするための安定した方法であることが示されている。
我々は、教師付き損失関数をフル活用して、より深い強化学習エージェントを安定的に訓練する方法について研究する。
政策改善を実現するためのトレーニングデータの収集方法が不明確であるため、これは難しい作業です。
本研究では、純粋に監督された損失を伴うポリシーを最適化するシンプルなアルゴリズムである自己改善強化学習(SSRL)を提案する。
政策勾配や価値推定がなければ, 「ラベル付け」データの反復的手順と教師付き回帰が, 安定した政策改善を促進するのに十分であることを示す。
トラジェクトリを高いエピソード報酬で選択し模倣することにより、SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合し、教師付き学習技術で強化学習を解く可能性を示している。
コードはhttps://github.com/daochenzha/ssrlで入手できる。
関連論文リスト
- Efficient Offline Reinforcement Learning: The Critic is Critical [5.916429671763282]
オフ・ポリシー強化学習は、教師付きアプローチを超えてパフォーマンスを改善するための有望なアプローチを提供する。
本稿では、まず行動方針を学習し、教師付き学習で批判し、その後に非政治強化学習で改善することによるベスト・オブ・ボス・アプローチを提案する。
論文 参考訳(メタデータ) (2024-06-19T09:16:38Z) - Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。