論文の概要: Rethinking Bregman Divergences in Kronecker-Factored Optimizers
- arxiv url: http://arxiv.org/abs/2606.00542v2
- Date: Tue, 02 Jun 2026 15:25:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.358373
- Title: Rethinking Bregman Divergences in Kronecker-Factored Optimizers
- Title(参考訳): Kronecker-Factored OptimizerにおけるBregmanの多様性の再考
- Authors: Bing Liu, Wenjie Zhou, Chengcheng Zhao,
- Abstract要約: Frobenius, von Neumann, LogDet の発散は避けられない Kronecker 近似誤差が異なることを示している。
上部分空間に固有値に基づくプレコンディショニングを適用し,下部分空間に適応等方的加速度定数を用いる部分空間対応Kroneckerを提案する。
- 参考スコア(独自算出の注目度): 9.141684114595433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shampoo-style optimizers approximate gradient covariance matrices using Kronecker-factored structures. Recent work~\cite{lin2026understanding} showed that such approximations can be viewed as projections under Bregman matrix divergences, leading to different Kronecker-factored preconditioners. However, it remains unclear what role the choice of divergence plays when the covariance is not exactly Kronecker-factored. We study this question through the spectrum of the covariance matrix. We show that Frobenius, von Neumann, and LogDet divergences distribute the unavoidable Kronecker approximation error differently across the covariance spectrum. We further show that their Kronecker factors are governed by divergence-weighted residuals rather than the raw approximation error, explaining how these spectral preferences are realized in the resulting preconditioners. Empirically, we observe that the top covariance eigenspace is substantially better aligned with the Hessian matrix, while the tail spectrum is much noisier and unreliable. Motivated by these findings, we propose a subspace-aware Kronecker optimizer that applies eigenvalue-based preconditioning in the top subspace and uses an adaptive isotropic acceleration constant in the bottom subspace.
- Abstract(参考訳): シャンプー型最適化器はクロネッカー分解構造を用いた勾配共分散行列を近似する。
最近の研究から、このような近似はブレグマン行列の発散の下で射影と見なせることが示され、クロネッカーが生成した様々なプレコンディショナーが導かれる。
しかし、共分散が正確にクロネッカー分解されていないとき、発散の選択がどのような役割を果たすのかは、いまだ不明である。
この問題を共分散行列のスペクトルを用いて研究する。
フロベニウス, フォン・ノイマン, ログデットの発散は, 避けられないクロネッカー近似誤差を共分散スペクトルで異なる方法で分配することを示した。
さらに、これらのKronecker因子は、生の近似誤差よりも分散重み付け残差によって制御されていることを示し、これらのスペクトル選好が、結果として生じるプレコンディショナーでどのように実現されるかを説明する。
経験的に、トップ共分散固有空間はヘッセン行列とかなりよく一致しているのに対し、テールスペクトルははるかにノイズが高く信頼できない。
これらの知見に触発されて、トップ部分空間に固有値に基づく事前条件を適用し、ボトム部分空間における適応等方的加速度定数を用いる、サブスペース対応のクロネッカー最適化器を提案する。
関連論文リスト
- Row-stochastic matrices can provably outperform doubly stochastic matrices in decentralized learning [10.686669655748702]
分散学習は、不均一ノード重みが$$の重み付きグローバル損失を伴うことが多い。
重み付きヒルベルト空間フレームワーク $L2(mathbbRd)$ を開発し、ユークリッド解析より厳密な収束率を得る。
そして、より小さなスペクトルギャップであっても、行確率的設計がより高速に収束する十分な条件を導出する。
論文 参考訳(メタデータ) (2025-11-24T02:58:38Z) - A Geometric Unification of Distributionally Robust Covariance Estimators: Shrinking the Spectrum by Inflating the Ambiguity Set [20.166217494056916]
制約的な仮定を課さずに共分散推定器を構築するための原理的手法を提案する。
頑健な推定器は効率的に計算可能で一貫したものであることを示す。
合成および実データに基づく数値実験により、我々の頑健な推定器は最先端の推定器と競合していることが示された。
論文 参考訳(メタデータ) (2024-05-30T15:01:18Z) - Variance-Reducing Couplings for Random Features [57.73648780299374]
ランダム機能(RF)は、機械学習においてカーネルメソッドをスケールアップする一般的なテクニックである。
ユークリッド空間と離散入力空間の両方で定義されるRFを改善するための結合を求める。
パラダイムとしての分散還元の利点と限界について、驚くほどの結論に達した。
論文 参考訳(メタデータ) (2024-05-26T12:25:09Z) - Entrywise error bounds for low-rank approximations of kernel matrices [55.524284152242096]
切り抜き固有分解を用いて得られたカーネル行列の低ランク近似に対するエントリーワイド誤差境界を導出する。
重要な技術的革新は、小さな固有値に対応するカーネル行列の固有ベクトルの非局在化結果である。
我々は、合成および実世界のデータセットの集合に関する実証的研究により、我々の理論を検証した。
論文 参考訳(メタデータ) (2024-05-23T12:26:25Z) - Intrinsic Bayesian Cramér-Rao Bound with an Application to Covariance Matrix Estimation [49.67011673289242]
本稿では, 推定パラメータが滑らかな多様体内にある推定問題に対して, 新たな性能境界を提案する。
これはパラメータ多様体の幾何学と推定誤差測度の本質的な概念を誘導する。
論文 参考訳(メタデータ) (2023-11-08T15:17:13Z) - Spectrum-Aware Debiasing: A Modern Inference Framework with Applications to Principal Components Regression [1.342834401139078]
本稿では,高次元回帰のための新しい手法であるSpectrumAware Debiasingを紹介する。
我々のアプローチは、構造的、重く、低ランクな構造に関する問題に適用できる。
シミュレーションおよび実データ実験により本手法を実証する。
論文 参考訳(メタデータ) (2023-09-14T15:58:30Z) - Spectral clustering under degree heterogeneity: a case for the random
walk Laplacian [83.79286663107845]
本稿では,ランダムウォークラプラシアンを用いたグラフスペクトル埋め込みが,ノード次数に対して完全に補正されたベクトル表現を生成することを示す。
次数補正ブロックモデルの特別な場合、埋め込みはK個の異なる点に集中し、コミュニティを表す。
論文 参考訳(メタデータ) (2021-05-03T16:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。