論文の概要: Stein-Rule Shrinkage for Stochastic Gradient Estimation in High Dimensions
- arxiv url: http://arxiv.org/abs/2602.01777v2
- Date: Fri, 06 Feb 2026 23:58:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 14:34:06.101984
- Title: Stein-Rule Shrinkage for Stochastic Gradient Estimation in High Dimensions
- Title(参考訳): 高次元の確率勾配推定のためのスタイン・ルール収縮
- Authors: M. Arashi, M. Amintoosi,
- Abstract要約: 勾配法は大規模学習の中心であるが、古典的決定理論が高次元において許容できないことを示す非バイアス推定器としてミニバッチ勾配を扱う。
本稿では, 歴史運動量から導かれる安定な推定器に対して, ミニバッチ勾配を適応的に調整する勾配推定器を構築する。
CIFAR10とCIFAR100の実験的評価は、大型バッチ方式におけるAdamよりも一貫した改善を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic gradient methods are central to large-scale learning, but they treat mini-batch gradients as unbiased estimators, which classical decision theory shows are inadmissible in high dimensions. We formulate gradient computation as a high-dimensional estimation problem and introduce a framework based on Stein-rule shrinkage. We construct a gradient estimator that adaptively contracts noisy mini-batch gradients toward a stable estimator derived from historical momentum. The shrinkage intensity is determined in a data-driven manner using an online estimate of gradient noise variance, leveraging statistics from adaptive optimizers. Under a Gaussian noise model, we show our estimator uniformly dominates the standard stochastic gradient under squared error loss and is minimax-optimal. We incorporate this into the Adam optimizer, yielding SR-Adam, a practical algorithm with negligible computational cost. Empirical evaluations on CIFAR10 and CIFAR100 across multiple levels of input noise show consistent improvements over Adam in the large-batch regime. Ablation studies indicate that gains arise primarily from selectively applying shrinkage to high-dimensional convolutional layers, while indiscriminate shrinkage across all parameters degrades performance. These results illustrate that classical shrinkage principles provide a principled approach to improving stochastic gradient estimation in deep learning.
- Abstract(参考訳): 確率勾配法は大規模学習の中心であるが、古典的決定理論が高次元において許容できないことを示す非バイアス推定器としてミニバッチ勾配を扱う。
我々は高次元推定問題として勾配計算を定式化し、スタインルールの縮退に基づくフレームワークを導入する。
歴史的運動量から導かれる安定な推定器に対して雑音の多いミニバッチ勾配を適応的に収縮する勾配推定器を構築する。
縮小強度は、適応オプティマイザの統計を利用して、勾配雑音分散のオンライン推定を用いて、データ駆動方式で決定される。
ガウス雑音モデルの下では、推定器が二乗誤差損失下での標準確率勾配を均一に支配し、最小値が最適であることを示す。
我々はこれをAdamオプティマイザに組み込み、無視可能な計算コストを持つ実用的なアルゴリズムSR-Adamを得る。
CIFAR10とCIFAR100の複数レベルの入力ノイズに対する実験的評価は、Adamよりも大きなバッチ状態において一貫した改善を示した。
アブレーション研究は、主に高次元の畳み込み層に収縮を選択的に適用することから得られるが、全てのパラメータにわたる収縮は性能を低下させることを示している。
これらの結果は、古典的縮小原理が、ディープラーニングにおける確率的勾配推定を改善するための原則的なアプローチを提供することを示している。
関連論文リスト
- On the Optimal Construction of Unbiased Gradient Estimators for Zeroth-Order Optimization [57.179679246370114]
既存の手法の潜在的な制限は、ステップサイズが提案されない限り、ほとんどの摂動推定器に固有のバイアスである。
本稿では, 良好な構成を維持しつつ, バイアスを排除した非バイアス勾配スケーリング推定器のファミリーを提案する。
論文 参考訳(メタデータ) (2025-10-22T18:25:43Z) - Limit Theorems for Stochastic Gradient Descent with Infinite Variance [51.4853131023238]
この勾配降下アルゴリズムは、適切なL'evy過程によって駆動されるオルンシュタイン-ルンシュタイン過程の定常分布として特徴付けられることを示す。
また、これらの結果の線形回帰モデルおよびロジスティック回帰モデルへの応用についても検討する。
論文 参考訳(メタデータ) (2024-10-21T09:39:10Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Sampling from Gaussian Process Posteriors using Stochastic Gradient
Descent [43.097493761380186]
勾配アルゴリズムは線形系を解くのに有効な方法である。
最適値に収束しない場合であっても,勾配降下は正確な予測を導出することを示す。
実験的に、勾配降下は十分に大規模または不条件の回帰タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-06-20T15:07:37Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Unbiased Gradient Estimation for Distributionally Robust Learning [2.1777837784979277]
分散的に堅牢な学習(DRL)に基づく新しいアプローチを検討し、内部問題に勾配降下を適用します。
本アルゴリズムはマルチレベルモンテカルロランダム化により勾配勾配を効率的に推定する。
論文 参考訳(メタデータ) (2020-12-22T21:35:03Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Non-asymptotic bounds for stochastic optimization with biased noisy
gradient oracles [8.655294504286635]
関数の測定値が推定誤差を持つ設定を捉えるために,バイアス付き勾配オラクルを導入する。
提案するオラクルは,例えば,独立分散シミュレーションと同一分散シミュレーションのバッチによるリスク計測推定の実践的な状況にある。
論文 参考訳(メタデータ) (2020-02-26T12:53:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。