論文の概要: Fisher-Geometric Diffusion in Stochastic Gradient Descent: Optimal Rates, Oracle Complexity, and Information-Theoretic Limits
- arxiv url: http://arxiv.org/abs/2603.02417v1
- Date: Mon, 02 Mar 2026 21:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.554221
- Title: Fisher-Geometric Diffusion in Stochastic Gradient Descent: Optimal Rates, Oracle Complexity, and Information-Theoretic Limits
- Title(参考訳): 確率的グラディエントDescentにおけるフィッシャー-幾何学的拡散-最適速度、オラクル複雑度、情報理論限界-
- Authors: Daniel Zantedeschi, Kumar Muthuraman,
- Abstract要約: そこで我々は,ミニバッチノイズが本質的,損失誘起行列である勾配降下理論を開発した。
我々はフィッシャー双対ノルムにおけるエクシロン定常性に対するオラクル-複素性保証を証明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a Fisher-geometric theory of stochastic gradient descent (SGD) in which mini-batch noise is an intrinsic, loss-induced matrix -- not an exogenous scalar variance. Under exchangeable sampling, the mini-batch gradient covariance is pinned down (to leading order) by the projected covariance of per-sample gradients: it equals projected Fisher information for well-specified likelihood losses and the projected Godambe (sandwich) matrix for general M-estimation losses. This identification forces a diffusion approximation with Fisher/Godambe-structured volatility (effective temperature tau = eta/b) and yields an Ornstein-Uhlenbeck linearization whose stationary covariance is given in closed form by a Fisher-Lyapunov equation. Building on this geometry, we prove matching minimax upper and lower bounds of order Theta(1/N) for Fisher/Godambe risk under a total oracle budget N; the lower bound holds under a martingale oracle condition (bounded predictable quadratic variation), strictly subsuming i.i.d. and exchangeable sampling. These results imply oracle-complexity guarantees for epsilon-stationarity in the Fisher dual norm that depend on an intrinsic effective dimension and a Fisher/Godambe condition number rather than ambient dimension or Euclidean conditioning. Experiments confirm the Lyapunov predictions and show that scalar temperature matching cannot reproduce directional noise structure.
- Abstract(参考訳): 我々は,小型バッチノイズが内在的,損失誘発行列である確率勾配勾配(SGD)のフィッシャー幾何学的理論を開発し,外因性スカラー分散ではない。
交換可能なサンプリングの下では、最小バッチ勾配の共分散は、サンプルごとの勾配の予測共分散によって(先行順に)ピン留めされる:それは、よく特定された可能性損失に対して予測されたフィッシャー情報と、一般的なM推定損失に対する予測されたゴダムベ行列とを等しくなる。
この同定はフィッシャー/ゴダム構造ボラティリティ(有効温度タウ = eta/b)との拡散近似を強制し、定常共分散がフィッシャー=リャプノフ方程式によって閉じた形で与えられるオルシュタイン=ウレンベック線型化を与える。
この幾何学に基づいて、総オラクル予算 N の下でフィッシャー/ゴダムベリスクの最小値と下位値の最小値(1/N) が一致することを証明し、下限はマーチンゲールオラクル条件(有界予測可能な二次変動)の下で保持し、厳密に従属し、交換可能なサンプリングを行う。
これらの結果は、環境次元やユークリッド条件よりも本質的な有効次元とフィッシャー/ゴダム条件数に依存するフィッシャー双対ノルムにおいて、オラクル-複素性はエプシロン-定常性を保証することを意味する。
実験では、リアプノフ予測を確認し、スカラー温度マッチングが指向性雑音構造を再現できないことを示す。
関連論文リスト
- Minimum Wasserstein distance estimator under covariate shift: closed-form, super-efficiency and irregularity [9.668478511115683]
本稿では,結果の回帰や重み付けの明示的なモデリングを避けるために,最小ワッサースタイン距離推定フレームワークを提案する。
得られたW-推定器はクローズドフォーム表現を認め、古典的な1-アネレスト近傍推定器と数値的に等価である。
数値シミュレーションは降雨データセットの解析とともに、我々のW推定器の異常な性能を裏付けるものである。
論文 参考訳(メタデータ) (2026-01-12T07:36:44Z) - Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting [44.23640219583819]
強化ファインチューニング(Reinforced Fine-Tuning, SFT)はドメイン適応の標準パラダイムである。
本稿では,この問題を解決するためにエントロピー適応ファインチューニング(EAFT)を提案する。
EAFTは標準SFTの下流性能と一貫して一致し、汎用能力の劣化を著しく軽減する。
論文 参考訳(メタデータ) (2026-01-05T14:28:17Z) - Bregman geometry-aware split Gibbs sampling for Bayesian Poisson inverse problems [8.115032818930457]
モンテカルロサンプリングアルゴリズムを用いて,逆問題の解法を提案する。
本手法は, 復元品質の点で競争性能が向上することを示す。
論文 参考訳(メタデータ) (2025-11-15T15:27:31Z) - Revisiting Zeroth-Order Optimization: Minimum-Variance Two-Point Estimators and Directionally Aligned Perturbations [57.179679246370114]
乱摂動の分布は, 摂動段差がゼロになる傾向にあるため, 推定子の分散を最小限に抑える。
以上の結果から, 一定の長さを維持するのではなく, 真の勾配に方向を合わせることが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-10-22T19:06:39Z) - Spectral Thresholds for Identifiability and Stability:Finite-Sample Phase Transitions in High-Dimensional Learning [0.0]
高次元学習では、サンプルサイズが臨界レベル以下になると、モデルは突然崩壊するまで安定している。
私たちのFisher Threshold Theoremは、最小のFisher固有値が明示的な$O(sqrtd/n)$boundを超えることを証明してこれを公式化する。
事前またはモデル固有の基準とは異なり、この閾値は有限サンプルであり、信頼性の高い濃度と避けられない失敗の間の急激な位相遷移を示す。
論文 参考訳(メタデータ) (2025-10-04T13:33:48Z) - A Computable Measure of Suboptimality for Entropy-Regularised Variational Objectives [17.212481754312048]
ベイズ以降のいくつかの手法は、エントロピー規則化された変分目的が最小化される確率分布をターゲットにしている。
この柔軟性の向上は、目標に対する明示的な非正規化密度へのアクセスを失うことにより、計算上の課題をもたらす。
我々は「漸進的不一致」と呼ばれる新たな準最適度尺度、特に明示的に計算できる「カーネル勾配不一致」を導入する。
論文 参考訳(メタデータ) (2025-09-12T16:38:41Z) - Rao-Blackwell Gradient Estimators for Equivariant Denoising Diffusion [55.95767828747407]
分子やタンパク質の生成のようなドメインでは、物理系はモデルにとって重要な固有の対称性を示す。
学習のばらつきを低減し、確率的に低い分散勾配推定器を提供するフレームワークを提案する。
また,軌道拡散法(Orbit Diffusion)と呼ばれる手法を用いて,損失とサンプリングの手順を取り入れた推定器の実用的実装を提案する。
論文 参考訳(メタデータ) (2025-02-14T03:26:57Z) - A Geometric Unification of Distributionally Robust Covariance Estimators: Shrinking the Spectrum by Inflating the Ambiguity Set [20.166217494056916]
制約的な仮定を課さずに共分散推定器を構築するための原理的手法を提案する。
頑健な推定器は効率的に計算可能で一貫したものであることを示す。
合成および実データに基づく数値実験により、我々の頑健な推定器は最先端の推定器と競合していることが示された。
論文 参考訳(メタデータ) (2024-05-30T15:01:18Z) - Variation Due to Regularization Tractably Recovers Bayesian Deep Learning [44.16006844888796]
本稿では,正規化による変動に基づく大規模ネットワークの不確実性定量化手法を提案する。
正規化変動(RegVar)は、無限小極限においてベイズ深層学習におけるラプラス近似を正確に回復する厳密な不確実性を推定する。
複数のデータセットにまたがる実験により、RegVarは不確実な予測を効果的に識別するだけでなく、学習した表現の安定性に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-15T20:47:39Z) - Efficiently Escaping Saddle Points for Policy Optimization [43.636107996849375]
政策勾配(PG)は、拡張性と優れた性能のために強化学習に広く用いられている。
本稿では,ヘッセンベクトル積 (HVP) の形で二階情報を用いた分散還元二階法を提案し,サンプルの複雑さを$tildeO(epsilon-3)$とする近似二階定常点 (SOSP) に収束する。
論文 参考訳(メタデータ) (2023-11-15T12:36:45Z) - Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。
本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文 参考訳(メタデータ) (2023-06-27T08:15:28Z) - Bayesian Renormalization [68.8204255655161]
ベイズ統計的推論にインスパイアされた再正規化に対する完全情報理論的アプローチを提案する。
ベイズ再正規化の主な洞察は、フィッシャー計量が創発的RGスケールの役割を担う相関長を定義することである。
本研究では,ベイズ正規化方式が既存のデータ圧縮法やデータ生成法とどのように関係しているかを考察する。
論文 参考訳(メタデータ) (2023-05-17T18:00:28Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。