論文の概要: Stable Gradients for Stable Learning at Scale in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.15544v1
- Date: Wed, 18 Jun 2025 15:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.709739
- Title: Stable Gradients for Stable Learning at Scale in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における安定学習のための安定勾配
- Authors: Roger Creus Castanyer, Johan Obando-Ceron, Lu Li, Pierre-Luc Bacon, Glen Berseth, Aaron Courville, Pablo Samuel Castro,
- Abstract要約: 深層強化学習ネットワークのスケールアップは困難であり、結果としてパフォーマンスが低下することが多い。
我々は,非定常性と勾配病理の組合せが,最適設計上の選択により,スケールの課題の根底にあることを示唆する一連の経験的分析を行った。
本稿では,勾配流の安定化を図り,ネットワークの深さと幅の幅をまたいだ堅牢な性能を実現する一連の直接介入を提案する。
- 参考スコア(独自算出の注目度): 26.34011982452824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling deep reinforcement learning networks is challenging and often results in degraded performance, yet the root causes of this failure mode remain poorly understood. Several recent works have proposed mechanisms to address this, but they are often complex and fail to highlight the causes underlying this difficulty. In this work, we conduct a series of empirical analyses which suggest that the combination of non-stationarity with gradient pathologies, due to suboptimal architectural choices, underlie the challenges of scale. We propose a series of direct interventions that stabilize gradient flow, enabling robust performance across a range of network depths and widths. Our interventions are simple to implement and compatible with well-established algorithms, and result in an effective mechanism that enables strong performance even at large scales. We validate our findings on a variety of agents and suites of environments.
- Abstract(参考訳): 深層強化学習ネットワークのスケーリングは困難であり、しばしば性能が低下するが、この障害モードの根本原因はよく分かっていない。
いくつかの最近の研究でこの問題に対処するためのメカニズムが提案されているが、それらはしばしば複雑であり、この困難の原因を明らかにするのに失敗している。
本研究は,非定常性と勾配病理の組合せが,最適設計上の選択により,スケールの課題の根底にあることを示唆する一連の経験的分析を行う。
本稿では,勾配流の安定化を図り,ネットワークの深さと幅の幅をまたいだ堅牢な性能を実現する一連の直接介入を提案する。
我々の介入は実装が簡単で、十分に確立されたアルゴリズムと互換性があり、その結果、大規模でも強力なパフォーマンスを実現する効果的なメカニズムが得られます。
さまざまなエージェントやスイートの環境において,本研究の成果を検証した。
関連論文リスト
- Mind the GAP! The Challenges of Scale in Pixel-based Deep Reinforcement Learning [20.101971938856153]
エンコーダの出力とそれに続く高密度層との接続を,スケーリング能力を制限する主要な要因として同定する。
我々は,グローバル平均プーリングを,ボトルネックをターゲットとするシンプルかつ効果的な方法として提示し,それ以前のアプローチの複雑さを回避する。
論文 参考訳(メタデータ) (2025-05-23T11:15:43Z) - Q-function Decomposition with Intervention Semantics with Factored Action Spaces [51.01244229483353]
元の作用空間の低次元射影部分空間上で定義されるQ-函数を考察し、分解されたQ-函数の不偏性について考察する。
これにより、標準モデルフリー強化学習アルゴリズムにおいて、予測Q関数を用いてQ関数を近似する動作分解強化学習と呼ばれる一般的なスキームが導かれる。
論文 参考訳(メタデータ) (2025-04-30T05:26:51Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Adaptive Pruning with Module Robustness Sensitivity: Balancing Compression and Robustness [7.742297876120561]
本稿では, 対向摂動に対する層次感度を定量化する新しい計量法であるModule Robustness Sensitivity (MRS)を紹介する。
本稿では,任意の対向学習法に適合する適応型プルーニングアルゴリズムであるModule Robust Pruning and Fine-Tuning (MRPF)を提案する。
論文 参考訳(メタデータ) (2024-10-19T18:35:52Z) - Mask-Encoded Sparsification: Mitigating Biased Gradients in Communication-Efficient Split Learning [15.78336840511033]
本稿では,スプリットラーニング(SL)シナリオにおいて,高い圧縮率を達成するために設計された新しいフレームワークを提案する。
本研究は, SL内の特徴写像の圧縮が, 収束率に負の影響を及ぼすバイアス勾配をもたらすことを示す。
我々は、時間的複雑さの順序を増大させることなく、スペーシフィケーションエラーを補うために、狭いビット幅の符号化マスクを用いる。
論文 参考訳(メタデータ) (2024-08-25T09:30:34Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Unsupervised Monocular Depth Learning with Integrated Intrinsics and
Spatio-Temporal Constraints [61.46323213702369]
本研究は,大規模深度マップとエゴモーションを予測可能な教師なし学習フレームワークを提案する。
本結果は,KITTI運転データセットの複数シーケンスにおける現在の最先端技術と比較して,高い性能を示す。
論文 参考訳(メタデータ) (2020-11-02T22:26:58Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。