論文の概要: Hessian Spectral Analysis at Foundation Model Scale
- arxiv url: http://arxiv.org/abs/2602.00816v1
- Date: Sat, 31 Jan 2026 16:57:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.417002
- Title: Hessian Spectral Analysis at Foundation Model Scale
- Title(参考訳): 基礎モデルスケールにおけるヘッセン分光分析
- Authors: Diego Granziol, Khurshid Juarev,
- Abstract要約: 我々は、真のヘッセンの忠実スペクトル解析がフロンティアスケールで抽出可能であることを示す。
我々は、サブ10B体制を超えて、最初の大規模スペクトル密度推定を行う。
- 参考スコア(独自算出の注目度): 1.9244735303181757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate Hessian spectra of foundation models have remained out of reach, leading most prior work to rely on small models or strong structural approximations. We show that faithful spectral analysis of the true Hessian is tractable at frontier scale. Using shard-local finite-difference Hessian vector products compatible with Fully Sharded Data Parallelism, we perform stochastic Lanczos quadrature on open-source language models with up to 100B parameters, producing the first large-scale spectral density estimates beyond the sub-10B regime. We characterize the numerical behavior of this pipeline, including finite-difference bias, floating-point noise amplification, and their effect on Krylov stability in fp32 and bf16, and derive practical operating regimes that are validated empirically. We further provide end-to-end runtime and memory scaling laws, showing that full-operator spectral probing incurs only a modest constant-factor overhead over first-order training. Crucially, direct access to the Hessian reveals that widely used block-diagonal curvature approximations can fail catastrophically, exhibiting order-one relative error and poor directional alignment even in mid-scale LLMs. Together, our results demonstrate that foundation-model Hessian spectra are both computable and qualitatively misrepresented by prevailing approximations, opening the door to principled curvature-based analysis at scale.
- Abstract(参考訳): 基礎モデルの正確なヘッセンスペクトルは到達できないままであり、ほとんどの以前の研究は小さなモデルや強い構造近似に依存していた。
我々は、真のヘッセンの忠実スペクトル解析がフロンティアスケールで抽出可能であることを示す。
完全Sharded Data Parallelismと互換性のあるシャード局所有限差分 Hessian ベクトル積を用いて、最大100Bパラメータを持つオープンソース言語モデル上で確率的 Lanczos を定式化し、サブ-10B 体制を超えた最初の大規模スペクトル密度推定を行う。
有限差分バイアス,浮動小数点雑音増幅,およびfp32およびbf16におけるクリロフ安定性への影響など,このパイプラインの数値的挙動を特徴付ける。
さらに、エンド・ツー・エンドのランタイムとメモリスケーリングの法則を提供し、フルオペレータのスペクトルプローブが1次トレーニングよりもわずかに一定要素のオーバーヘッドしか生じないことを示した。
ヘッセン川への直接アクセスは、広く使われているブロック対角曲率近似が破滅的に失敗し、中規模LCMでもオーダーワン相対誤差と方向整列が不十分であることを示している。
この結果から,基礎モデルヘッセンスペクトルは近似によって計算可能かつ定性的に誤って表現され,原理的曲率解析の扉を開くことが示唆された。
関連論文リスト
- FlexCausal: Flexible Causal Disentanglement via Structural Flow Priors and Manifold-Aware Interventions [1.7114074082429929]
因果解離表現学習(Causal Disentangled Representation Learning)は、観測から低次元表現を学習し、解離することを目的とする。
本稿では,ブロック対角共分散VAEに基づく新しいCDRLフレームワークFlexCausalを提案する。
本フレームワークは,学習した潜在部分空間と基底-真理因果関係の正確な構造的対応を保証する。
論文 参考訳(メタデータ) (2026-01-29T11:30:53Z) - The Vekua Layer: Exact Physical Priors for Implicit Neural Representations via Generalized Analytic Functions [0.0]
Inlicit Neural Representations (INR)は、物理場をパラメータ化するための強力なパラダイムとして登場した。
一般化分析理論に基づく微分スペクトル法を導入する。
本手法は物理インフォームドスペクトルフィルタとして効果的に機能することを示す。
論文 参考訳(メタデータ) (2025-12-11T21:57:21Z) - Revisiting Zeroth-Order Optimization: Minimum-Variance Two-Point Estimators and Directionally Aligned Perturbations [57.179679246370114]
乱摂動の分布は, 摂動段差がゼロになる傾向にあるため, 推定子の分散を最小限に抑える。
以上の結果から, 一定の長さを維持するのではなく, 真の勾配に方向を合わせることが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-10-22T19:06:39Z) - On the Optimal Construction of Unbiased Gradient Estimators for Zeroth-Order Optimization [57.179679246370114]
既存の手法の潜在的な制限は、ステップサイズが提案されない限り、ほとんどの摂動推定器に固有のバイアスである。
本稿では, 良好な構成を維持しつつ, バイアスを排除した非バイアス勾配スケーリング推定器のファミリーを提案する。
論文 参考訳(メタデータ) (2025-10-22T18:25:43Z) - Spectral Thresholds in Correlated Spiked Models and Fundamental Limits of Partial Least Squares [15.163541835643635]
本稿では,PLS(Partial Least Squares)が原理的に検出可能であるにもかかわらず,信号の回復に失敗したことを示す。
これらの結果はPLSの理論的限界を明らかにし、高次元の信頼性マルチモーダル推論手法の設計のためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-10-20T14:08:58Z) - Theoretical Bounds for Stable In-Context Learning [0.0]
In-context Learning (ICL) は柔軟性があるが、その信頼性は迅速な長さに敏感である。
本稿では、最小数の実証とICL安定性を結びつける非漸近的下界を確立する。
本稿では,1ショットキャリブレーションを施した2段階観測可能推定器を提案する。
論文 参考訳(メタデータ) (2025-09-25T02:25:05Z) - Revisit CP Tensor Decomposition: Statistical Optimality and Fast Convergence [6.724750970258851]
統計学的観点からカノニカルポリアディクス(CP)テンソル分解を再検討する。
本稿では,信号+雑音モデルに基づくAlternating Least Squares(ALS)の包括的理論的解析を行う。
論文 参考訳(メタデータ) (2025-05-29T03:42:03Z) - Guided Diffusion Sampling on Function Spaces with Applications to PDEs [112.09025802445329]
PDEに基づく逆問題における条件付きサンプリングのための一般的なフレームワークを提案する。
これは、関数空間拡散モデルと条件付けのためのプラグアンドプレイガイダンスによって達成される。
提案手法は,最先端の固定解像度拡散ベースラインに対して平均32%の精度向上を実現する。
論文 参考訳(メタデータ) (2025-05-22T17:58:12Z) - On the Wasserstein Convergence and Straightness of Rectified Flow [54.580605276017096]
Rectified Flow (RF) は、ノイズからデータへの直流軌跡の学習を目的とした生成モデルである。
RFのサンプリング分布とターゲット分布とのワッサーシュタイン距離に関する理論的解析を行った。
本稿では,従来の経験的知見と一致した1-RFの特異性と直線性を保証する一般的な条件について述べる。
論文 参考訳(メタデータ) (2024-10-19T02:36:11Z) - Last-Iterate Convergence of Adaptive Riemannian Gradient Descent for Equilibrium Computation [52.73824786627612]
本稿では,テクスト幾何学的強単調ゲームに対する新たな収束結果を確立する。
我々のキーとなる結果は、RGDがテクスト幾何学的手法で最終定位線形収束を実現することを示しています。
全体として、ユークリッド設定を超えるゲームに対して、幾何学的に非依存な最終点収束解析を初めて提示する。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Efficient CDF Approximations for Normalizing Flows [64.60846767084877]
正規化フローの微分同相性に基づいて、閉領域上の累積分布関数(CDF)を推定する。
一般的なフローアーキテクチャとUCIデータセットに関する実験は,従来の推定器と比較して,サンプル効率が著しく向上したことを示している。
論文 参考訳(メタデータ) (2022-02-23T06:11:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。