論文の概要: Stabilizing Off-Policy Deep Reinforcement Learning from Pixels
- arxiv url: http://arxiv.org/abs/2207.00986v1
- Date: Sun, 3 Jul 2022 08:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 12:39:13.085681
- Title: Stabilizing Off-Policy Deep Reinforcement Learning from Pixels
- Title(参考訳): 画素によるオフポリティディープ強化学習の安定化
- Authors: Edoardo Cetin, Philip J. Ball, Steve Roberts, Oya Celiktutan
- Abstract要約: ピクセル観測から学んだオフ政治強化は、非常に不安定である。
これらの不安定性は,畳み込みエンコーダと低次報酬を用いた時間差学習によって生じることを示す。
本稿では, エンコーダの勾配に適応的な正規化を提供する手法であるA-LIXを提案する。
- 参考スコア(独自算出の注目度): 9.998078491879145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy reinforcement learning (RL) from pixel observations is notoriously
unstable. As a result, many successful algorithms must combine different
domain-specific practices and auxiliary losses to learn meaningful behaviors in
complex environments. In this work, we provide novel analysis demonstrating
that these instabilities arise from performing temporal-difference learning
with a convolutional encoder and low-magnitude rewards. We show that this new
visual deadly triad causes unstable training and premature convergence to
degenerate solutions, a phenomenon we name catastrophic self-overfitting. Based
on our analysis, we propose A-LIX, a method providing adaptive regularization
to the encoder's gradients that explicitly prevents the occurrence of
catastrophic self-overfitting using a dual objective. By applying A-LIX, we
significantly outperform the prior state-of-the-art on the DeepMind Control and
Atari 100k benchmarks without any data augmentation or auxiliary losses.
- Abstract(参考訳): 画素観測によるオフポリティクス強化学習(RL)は不安定である。
その結果、多くの成功したアルゴリズムは、複雑な環境で意味のある振る舞いを学ぶために、異なるドメイン固有のプラクティスと補助的損失を組み合わせる必要がある。
本研究では,畳み込みエンコーダと低マグニチュード報酬を用いた時間差学習により,これらの不安定性が生じることを示す新しい分析法を提案する。
この新たな視覚的致命的な三重項は、不安定なトレーニングと早期収束を引き起こして解を退縮させる現象である。
そこで,本研究では,符号化器の勾配に適応的な正則化を提供する手法であるa-lixを提案する。
A-LIXを適用することで、DeepMind ControlやAtari 100kベンチマークにおいて、データ拡張や補助的な損失を伴わずに、先行技術よりも大幅に優れています。
関連論文リスト
- Class Incremental Learning for Adversarial Robustness [17.06592851567578]
アドリラルトレーニングは、モデルトレーニング中の敵の例を統合して、堅牢性を高める。
直感的な対人訓練と漸進的な学習を組み合わせることで、頑健さが失われることが容易に分かる。
本稿では, 対向型とクリーン型との出力差を生かしたFPD損失を提案する。
論文 参考訳(メタデータ) (2023-12-06T04:38:02Z) - RobustCalib: Robust Lidar-Camera Extrinsic Calibration with Consistency
Learning [42.90987864456673]
LiDARカメラ外部推定の現在の手法は、オフラインの目標と人間の努力に依存している。
本稿では,外因性キャリブレーション問題に頑健で自動的で単発的な方法で対処する新しい手法を提案する。
我々は,異なるデータセットの総合的な実験を行い,本手法が正確かつ堅牢な性能を実現することを示す。
論文 参考訳(メタデータ) (2023-12-02T09:29:50Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Distortion-Disentangled Contrastive Learning [13.27998440853596]
本稿では、DCL(Distortion-Disentangled Contrastive Learning)とDDL(Distortion-Disentangled Loss)という新しいPOCLフレームワークを提案する。
我々のアプローチは、モデルと特徴ストリーム内のDVRを明示的に切り離し、活用して、全体的な表現利用効率、堅牢性、表現能力を改善する最初の方法です。
論文 参考訳(メタデータ) (2023-03-09T06:33:31Z) - DR3: Value-Based Deep Reinforcement Learning Requires Explicit
Regularization [125.5448293005647]
教師付き学習で見られるSGDの暗黙的な正則化効果が、オフラインの深いRLでは有害である可能性について論じる。
我々の理論的解析は、暗黙正則化の既存のモデルが時間差分学習に適用された場合、導出正規化器は退化解を好むことを示している。
我々は、この暗黙的正則化の望ましくない効果に対処する、DR3と呼ばれる単純で効果的な明示的正則化器を提案する。
論文 参考訳(メタデータ) (2021-12-09T06:01:01Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Adversarially Robust Learning via Entropic Regularization [31.6158163883893]
我々は、敵対的に堅牢なディープニューラルネットワークを訓練するための新しいアルゴリズムATENTを提案する。
我々の手法は、頑健な分類精度の観点から、競争力(またはより良い)性能を達成する。
論文 参考訳(メタデータ) (2020-08-27T18:54:43Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。