論文の概要: Stabilizing Off-Policy Deep Reinforcement Learning from Pixels
- arxiv url: http://arxiv.org/abs/2207.00986v1
- Date: Sun, 3 Jul 2022 08:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 12:39:13.085681
- Title: Stabilizing Off-Policy Deep Reinforcement Learning from Pixels
- Title(参考訳): 画素によるオフポリティディープ強化学習の安定化
- Authors: Edoardo Cetin, Philip J. Ball, Steve Roberts, Oya Celiktutan
- Abstract要約: ピクセル観測から学んだオフ政治強化は、非常に不安定である。
これらの不安定性は,畳み込みエンコーダと低次報酬を用いた時間差学習によって生じることを示す。
本稿では, エンコーダの勾配に適応的な正規化を提供する手法であるA-LIXを提案する。
- 参考スコア(独自算出の注目度): 9.998078491879145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy reinforcement learning (RL) from pixel observations is notoriously
unstable. As a result, many successful algorithms must combine different
domain-specific practices and auxiliary losses to learn meaningful behaviors in
complex environments. In this work, we provide novel analysis demonstrating
that these instabilities arise from performing temporal-difference learning
with a convolutional encoder and low-magnitude rewards. We show that this new
visual deadly triad causes unstable training and premature convergence to
degenerate solutions, a phenomenon we name catastrophic self-overfitting. Based
on our analysis, we propose A-LIX, a method providing adaptive regularization
to the encoder's gradients that explicitly prevents the occurrence of
catastrophic self-overfitting using a dual objective. By applying A-LIX, we
significantly outperform the prior state-of-the-art on the DeepMind Control and
Atari 100k benchmarks without any data augmentation or auxiliary losses.
- Abstract(参考訳): 画素観測によるオフポリティクス強化学習(RL)は不安定である。
その結果、多くの成功したアルゴリズムは、複雑な環境で意味のある振る舞いを学ぶために、異なるドメイン固有のプラクティスと補助的損失を組み合わせる必要がある。
本研究では,畳み込みエンコーダと低マグニチュード報酬を用いた時間差学習により,これらの不安定性が生じることを示す新しい分析法を提案する。
この新たな視覚的致命的な三重項は、不安定なトレーニングと早期収束を引き起こして解を退縮させる現象である。
そこで,本研究では,符号化器の勾配に適応的な正則化を提供する手法であるa-lixを提案する。
A-LIXを適用することで、DeepMind ControlやAtari 100kベンチマークにおいて、データ拡張や補助的な損失を伴わずに、先行技術よりも大幅に優れています。
関連論文リスト
- LEARN: An Invex Loss for Outlier Oblivious Robust Online Optimization [56.67706781191521]
敵は、学習者に未知の任意の数kの損失関数を破損させることで、外れ値を導入することができる。
我々は,任意の数kで損失関数を破損させることで,敵が外乱を発生させることができる,頑健なオンラインラウンド最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-12T17:08:31Z) - Complexity-Aware Deep Symbolic Regression with Robust Risk-Seeking Policy Gradients [20.941908494137806]
本稿では,データ駆動型数式発見の堅牢性と解釈可能性を高めるための,新しい記号回帰手法を提案する。
DSRは最先端の手法であるDSRの成功にもかかわらず、リカレントニューラルネットワーク上に構築されており、純粋にデータ適合性によってガイドされている。
学習性能を向上させるために,トランスフォーマーとブロードスファーストサーチを併用した。
論文 参考訳(メタデータ) (2024-06-10T19:29:10Z) - Improving Data-aware and Parameter-aware Robustness for Continual Learning [3.480626767752489]
本報告では, オフラヤの非効率な取扱いから, この不整合が生じることを解析する。
本稿では,ロバスト連続学習(RCL)手法を提案する。
提案手法は, 堅牢性を効果的に維持し, 新たなSOTA(State-of-the-art)結果を得る。
論文 参考訳(メタデータ) (2024-05-27T11:21:26Z) - Class Incremental Learning for Adversarial Robustness [17.06592851567578]
アドリラルトレーニングは、モデルトレーニング中の敵の例を統合して、堅牢性を高める。
直感的な対人訓練と漸進的な学習を組み合わせることで、頑健さが失われることが容易に分かる。
本稿では, 対向型とクリーン型との出力差を生かしたFPD損失を提案する。
論文 参考訳(メタデータ) (2023-12-06T04:38:02Z) - Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。
我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。
特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文 参考訳(メタデータ) (2023-01-03T04:09:38Z) - DR3: Value-Based Deep Reinforcement Learning Requires Explicit
Regularization [125.5448293005647]
教師付き学習で見られるSGDの暗黙的な正則化効果が、オフラインの深いRLでは有害である可能性について論じる。
我々の理論的解析は、暗黙正則化の既存のモデルが時間差分学習に適用された場合、導出正規化器は退化解を好むことを示している。
我々は、この暗黙的正則化の望ましくない効果に対処する、DR3と呼ばれる単純で効果的な明示的正則化器を提案する。
論文 参考訳(メタデータ) (2021-12-09T06:01:01Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。