論文の概要: Stable Deep Reinforcement Learning via Isotropic Gaussian Representations
- arxiv url: http://arxiv.org/abs/2602.19373v1
- Date: Sun, 22 Feb 2026 22:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.612042
- Title: Stable Deep Reinforcement Learning via Isotropic Gaussian Representations
- Title(参考訳): 等方的ガウス表現による安定な深層強化学習
- Authors: Ali Saheb, Johan Obando-Ceron, Aaron Courville, Pouya Bashivan, Pablo Samuel Castro,
- Abstract要約: 非定常目標下では,等方的ガウス埋め込みが有益であることを示す。
等方性ガウス分布に対する表現の整形にSketched isotropic Gaussian Regularizationを適用することを提案する。
- 参考スコア(独自算出の注目度): 19.912439771541568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning systems often suffer from unstable training dynamics due to non-stationarity, where learning objectives and data distributions evolve over time. We show that under non-stationary targets, isotropic Gaussian embeddings are provably advantageous. In particular, they induce stable tracking of time-varying targets for linear readouts, achieve maximal entropy under a fixed variance budget, and encourage a balanced use of all representational dimensions--all of which enable agents to be more adaptive and stable. Building on this insight, we propose the use of Sketched Isotropic Gaussian Regularization for shaping representations toward an isotropic Gaussian distribution during training. We demonstrate empirically, over a variety of domains, that this simple and computationally inexpensive method improves performance under non-stationarity while reducing representation collapse, neuron dormancy, and training instability.
- Abstract(参考訳): 深層強化学習システムは、学習目標とデータ分布が時間とともに進化する非定常性による不安定なトレーニングダイナミクスに悩まされることが多い。
非定常目標の下では、等方的ガウス埋め込みが有益であることを示す。
特に、線形読み出しに対する時間変化ターゲットの安定した追跡を誘導し、固定された分散予算の下で最大エントロピーを達成するとともに、すべての表現次元のバランスよく使用することを奨励する。
この知見に基づいて、トレーニング中の等方的ガウス分布に対する表現形成にSketched Isotropic Gaussian Regularization を用いることを提案する。
本手法は, 表現崩壊, ニューロン休眠, トレーニング不安定性を低減しつつ, 非定常条件下での性能を向上させることを実証的に実証する。
関連論文リスト
- Degradation of Feature Space in Continual Learning [2.322400467239964]
本研究では,特徴空間の等方性向上が連続学習における表現品質の向上に寄与するかどうかを考察する。
等方正則化は改善せず、実際には劣化し、連続的な設定で精度をモデル化できる。
論文 参考訳(メタデータ) (2026-02-06T10:26:34Z) - Stability as a Liability:Systematic Breakdown of Linguistic Structure in LLMs [5.96875296117642]
安定なパラメータトラジェクトリが定常解を導出し、経験的分布へのKLの分岐を最小化することを示す。
制御されたフィードバックベースのトレーニングフレームワークを用いて,この効果を実証的に検証する。
これは、最適化の安定性と生成的表現性は本質的に一致していないことを示し、安定性のみが生成的品質の指標として不十分であることを示している。
論文 参考訳(メタデータ) (2026-01-26T15:34:50Z) - Revisiting Zeroth-Order Optimization: Minimum-Variance Two-Point Estimators and Directionally Aligned Perturbations [57.179679246370114]
乱摂動の分布は, 摂動段差がゼロになる傾向にあるため, 推定子の分散を最小限に抑える。
以上の結果から, 一定の長さを維持するのではなく, 真の勾配に方向を合わせることが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-10-22T19:06:39Z) - Towards Unraveling and Improving Generalization in World Models [29.54936027897926]
この研究は、世界モデルの堅牢性と一般化能力を深く理解することを目的としている。
遅延表現誤差がロバスト性および一般化に与える影響を特徴付ける。
非ゼロドリフトの複合的誤り伝播効果を軽減するためのヤコビ正規化手法を提案する。
論文 参考訳(メタデータ) (2024-12-31T00:15:43Z) - Regularization for Adversarial Robust Learning [18.46110328123008]
我々は,$phi$-divergence正規化を分散ロバストなリスク関数に組み込む,対角訓練のための新しい手法を開発した。
この正規化は、元の定式化と比較して計算の顕著な改善をもたらす。
本研究では,教師付き学習,強化学習,文脈学習において提案手法の有効性を検証し,様々な攻撃に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2024-08-19T03:15:41Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - Eccentric Regularization: Minimizing Hyperspherical Energy without
explicit projection [0.913755431537592]
アイテム間の一対の反発力をシミュレートする新しい正規化損失関数を紹介します。
この損失関数を分離して最小化すると超球面分布が得られることを示す。
本稿では,この偏心正規化手法をオートエンコーダに適用し,画像生成,表現学習,下流分類タスクにおいてその効果を示す。
論文 参考訳(メタデータ) (2021-04-23T13:55:17Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Heteroskedastic and Imbalanced Deep Learning with Adaptive
Regularization [55.278153228758434]
実世界のデータセットはヘテロスケダティックで不均衡である。
ヘテロスケダスティック性と不均衡を同時に扱うことは、未発見である。
本稿ではヘテロスケダスティックデータセットに対するデータ依存正規化手法を提案する。
論文 参考訳(メタデータ) (2020-06-29T01:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。