Fugu-MT 論文翻訳(概要): Stabilizing Off-Policy Deep Reinforcement Learning from Pixels

論文の概要: Stabilizing Off-Policy Deep Reinforcement Learning from Pixels

arxiv url: http://arxiv.org/abs/2207.00986v1
Date: Sun, 3 Jul 2022 08:52:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-05 12:39:13.085681
Title: Stabilizing Off-Policy Deep Reinforcement Learning from Pixels
Title（参考訳）: 画素によるオフポリティディープ強化学習の安定化
Authors: Edoardo Cetin, Philip J. Ball, Steve Roberts, Oya Celiktutan
Abstract要約: ピクセル観測から学んだオフ政治強化は、非常に不安定である。これらの不安定性は,畳み込みエンコーダと低次報酬を用いた時間差学習によって生じることを示す。本稿では, エンコーダの勾配に適応的な正規化を提供する手法であるA-LIXを提案する。
参考スコア（独自算出の注目度）: 9.998078491879145
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Off-policy reinforcement learning (RL) from pixel observations is notoriously unstable. As a result, many successful algorithms must combine different domain-specific practices and auxiliary losses to learn meaningful behaviors in complex environments. In this work, we provide novel analysis demonstrating that these instabilities arise from performing temporal-difference learning with a convolutional encoder and low-magnitude rewards. We show that this new visual deadly triad causes unstable training and premature convergence to degenerate solutions, a phenomenon we name catastrophic self-overfitting. Based on our analysis, we propose A-LIX, a method providing adaptive regularization to the encoder's gradients that explicitly prevents the occurrence of catastrophic self-overfitting using a dual objective. By applying A-LIX, we significantly outperform the prior state-of-the-art on the DeepMind Control and Atari 100k benchmarks without any data augmentation or auxiliary losses.
Abstract（参考訳）: 画素観測によるオフポリティクス強化学習(RL)は不安定である。その結果、多くの成功したアルゴリズムは、複雑な環境で意味のある振る舞いを学ぶために、異なるドメイン固有のプラクティスと補助的損失を組み合わせる必要がある。本研究では,畳み込みエンコーダと低マグニチュード報酬を用いた時間差学習により,これらの不安定性が生じることを示す新しい分析法を提案する。この新たな視覚的致命的な三重項は、不安定なトレーニングと早期収束を引き起こして解を退縮させる現象である。そこで,本研究では,符号化器の勾配に適応的な正則化を提供する手法であるa-lixを提案する。 A-LIXを適用することで、DeepMind ControlやAtari 100kベンチマークにおいて、データ拡張や補助的な損失を伴わずに、先行技術よりも大幅に優れています。

関連論文リスト

SPEAR++: Scaling Gradient Inversion via Sparsely-Used Dictionary Learning [48.41770886055744]
Federated Learningは最近、現実世界のシナリオへのデプロイが増えている。いわゆる勾配反転攻撃の導入は、プライバシー保護特性に挑戦している。本稿では,ReLU活性化を伴う線形層の勾配の理論的解析に基づくSPEARを紹介する。新たな攻撃であるSPEAR++は、DPノイズに対する堅牢性やFedAvgアグリゲーションなど、SPEARの望ましい特性をすべて保持しています。
論文参考訳（メタデータ） (2025-10-28T09:06:19Z)
Downgrade to Upgrade: Optimizer Simplification Enhances Robustness in LLM Unlearning [25.53799024782883]
大言語モデル(LLM)は、既存のモデルから望ましくないデータや知識の影響を外科的に除去することを目的としている。最近の知見は、ウェイト量子化や微調整のような未学習操作が、意図した忘れを迅速に中和できることを示している。
論文参考訳（メタデータ） (2025-10-01T10:50:14Z)
OFMU: Optimization-Driven Framework for Machine Unlearning [5.100622189286672]
大規模言語モデルは、ユーザ要求、著作権のある資料、時代遅れの情報など、特定の知識を解放する能力を必要としている。我々は,保留期間を保ちながら忘れを明示的に優先順位付けするペナルティベースの二段階最適化フレームワークOFMUを提案する。 OFMUは既存のアンラーニング手法を有効性と有効性の両方で一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-09-26T15:31:32Z)
Spectral Collapse Drives Loss of Plasticity in Deep Continual Learning [14.196969540084929]
深層ニューラルネットワークは、深層学習において可塑性の喪失に悩まされていることを示す。我々は、$tau$-trainabilityの概念を導入し、現在の可塑性保存アルゴリズムをこのフレームワークで統一できることを示します。連続的な教師付きおよび強化学習タスクの実験により、これら2つのレギュレータを組み合わせることで、可塑性を効果的に維持できることが確認された。
論文参考訳（メタデータ） (2025-09-26T13:28:53Z)
Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文参考訳（メタデータ） (2025-07-06T17:01:02Z)
LEARN: An Invex Loss for Outlier Oblivious Robust Online Optimization [56.67706781191521]
敵は、学習者に未知の任意の数kの損失関数を破損させることで、外れ値を導入することができる。我々は,任意の数kで損失関数を破損させることで,敵が外乱を発生させることができる,頑健なオンラインラウンド最適化フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-12T17:08:31Z)
Feature Attenuation of Defective Representation Can Resolve Incomplete Masking on Anomaly Detection [1.0358639819750703]
教師なし異常検出(UAD)研究では、計算効率が高くスケーラブルなソリューションを開発する必要がある。再建・塗り替えのアプローチを再考し、強みと弱みを分析して改善する。異常再構成の特徴情報を減衰させる2つの層のみを用いるFADeR(Feature Attenuation of Defective Representation)を提案する。
論文参考訳（メタデータ） (2024-07-05T15:44:53Z)
Complexity-Aware Deep Symbolic Regression with Robust Risk-Seeking Policy Gradients [20.941908494137806]
本稿では,データ駆動型数式発見の堅牢性と解釈可能性を高めるための,新しい記号回帰手法を提案する。 DSRは最先端の手法であるDSRの成功にもかかわらず、リカレントニューラルネットワーク上に構築されており、純粋にデータ適合性によってガイドされている。学習性能を向上させるために,トランスフォーマーとブロードスファーストサーチを併用した。
論文参考訳（メタデータ） (2024-06-10T19:29:10Z)
Improving Data-aware and Parameter-aware Robustness for Continual Learning [3.480626767752489]
本報告では, オフラヤの非効率な取扱いから, この不整合が生じることを解析する。本稿では,ロバスト連続学習(RCL)手法を提案する。提案手法は, 堅牢性を効果的に維持し, 新たなSOTA(State-of-the-art)結果を得る。
論文参考訳（メタデータ） (2024-05-27T11:21:26Z)
Class Incremental Learning for Adversarial Robustness [17.06592851567578]
アドリラルトレーニングは、モデルトレーニング中の敵の例を統合して、堅牢性を高める。直感的な対人訓練と漸進的な学習を組み合わせることで、頑健さが失われることが容易に分かる。本稿では, 対向型とクリーン型との出力差を生かしたFPD損失を提案する。
論文参考訳（メタデータ） (2023-12-06T04:38:02Z)
RobustCalib: Robust Lidar-Camera Extrinsic Calibration with Consistency Learning [42.90987864456673]
LiDARカメラ外部推定の現在の手法は、オフラインの目標と人間の努力に依存している。本稿では,外因性キャリブレーション問題に頑健で自動的で単発的な方法で対処する新しい手法を提案する。我々は,異なるデータセットの総合的な実験を行い,本手法が正確かつ堅牢な性能を実現することを示す。
論文参考訳（メタデータ） (2023-12-02T09:29:50Z)
Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文参考訳（メタデータ） (2023-01-03T04:09:38Z)
DR3: Value-Based Deep Reinforcement Learning Requires Explicit Regularization [125.5448293005647]
教師付き学習で見られるSGDの暗黙的な正則化効果が、オフラインの深いRLでは有害である可能性について論じる。我々の理論的解析は、暗黙正則化の既存のモデルが時間差分学習に適用された場合、導出正規化器は退化解を好むことを示している。我々は、この暗黙的正則化の望ましくない効果に対処する、DR3と呼ばれる単純で効果的な明示的正則化器を提案する。
論文参考訳（メタデータ） (2021-12-09T06:01:01Z)
Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文参考訳（メタデータ） (2021-06-21T21:42:08Z)
Attribute-Guided Adversarial Training for Robustness to Natural Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文参考訳（メタデータ） (2020-12-03T10:17:30Z)
Unbiased Risk Estimators Can Mislead: A Case Study of Learning with Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。勾配推定の品質はリスク最小化においてより重要であることを示す。本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文参考訳（メタデータ） (2020-07-05T04:19:37Z)
Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文参考訳（メタデータ） (2020-06-18T19:04:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。