論文の概要: A Scalable Measure of Loss Landscape Curvature for Analyzing the Training Dynamics of LLMs
- arxiv url: http://arxiv.org/abs/2601.16979v1
- Date: Fri, 23 Jan 2026 18:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.810657
- Title: A Scalable Measure of Loss Landscape Curvature for Analyzing the Training Dynamics of LLMs
- Title(参考訳): LLMのトレーニングダイナミクス解析のためのランドスケープ曲線のスケーラブルな測定
- Authors: Dayal Singh Kalra, Jean-Christophe Gagnon-Audet, Andrey Gromov, Ishita Mediratta, Kelvin Niu, Alexander H Miller, Michael Shvartsman,
- Abstract要約: Hessian sharpness(_maxH$)は、局所的なトレーニング安定性を決定し、トレーニングを通じて学習率と相互作用する。
我々は、ある損失ランドスケープの曲率を定量化し、別の損失ランドスケープを最適化する、$textitrelative critical sharpness$$$(_c1to 2$)を導入する。
より広範に、我々の研究はスケーラブルな曲率測定が大規模なトレーニングに実用的な洞察をもたらすことを示しています。
- 参考スコア(独自算出の注目度): 45.07359205011493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the curvature evolution of the loss landscape is fundamental to analyzing the training dynamics of neural networks. The most commonly studied measure, Hessian sharpness ($λ_{\max}^H$) -- the largest eigenvalue of the loss Hessian -- determines local training stability and interacts with the learning rate throughout training. Despite its significance in analyzing training dynamics, direct measurement of Hessian sharpness remains prohibitive for Large Language Models (LLMs) due to high computational cost. We analyze $\textit{critical sharpness}$ ($λ_c$), a computationally efficient measure requiring fewer than $10$ forward passes given the update direction $Δ\mathbfθ$. Critically, this measure captures well-documented Hessian sharpness phenomena, including progressive sharpening and Edge of Stability. Using this measure, we provide the first demonstration of these sharpness phenomena at scale, up to $7$B parameters, spanning both pre-training and mid-training of OLMo-2 models. We further introduce $\textit{relative critical sharpness}$ ($λ_c^{1\to 2}$), which quantifies the curvature of one loss landscape while optimizing another, to analyze the transition from pre-training to fine-tuning and guide data mixing strategies. Critical sharpness provides practitioners with a practical tool for diagnosing curvature dynamics and informing data composition choices at scale. More broadly, our work shows that scalable curvature measures can provide actionable insights for large-scale training.
- Abstract(参考訳): 損失ランドスケープの曲率進化を理解することは、ニューラルネットワークのトレーニングダイナミクスを分析するのに不可欠である。
最もよく研究されている測度である Hessian sharpness (λ_{\max}^H$) は、損失 Hessian の最大の固有値であり、局所的な訓練安定性を決定し、訓練を通して学習率と相互作用する。
トレーニングダイナミクスの解析において重要であるが、計算コストが高いため、大規模言語モデル(LLM)ではヘッセンシャープネスの直接測定は禁じられている。
我々は$\textit{ critical sharpness}$$$λ_c$を分析する。
この尺度は、急激なシャープニングや安定性のエッジを含む、よく文書化されたヘッセンのシャープネス現象を捉えている。
この測定値を用いて,OLMo-2モデルの事前学習と中間訓練の両方にまたがる,最大7$Bのパラメータで,これらのシャープネス現象を初めて実演する。
さらに、あるロスランドスケープの曲率を最適化しながら定量化し、事前学習から微調整およびガイドデータ混合戦略への移行を分析するために、$\textit{relative critical sharpness}$$$$(λ_c^{1\to 2}$)を導入する。
急激なシャープさは、曲率のダイナミクスを診断し、大規模にデータ構成の選択を指示する実用的なツールを提供する。
より広範に、我々の研究はスケーラブルな曲率測定が大規模なトレーニングに実用的な洞察をもたらすことを示しています。
関連論文リスト
- How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。
フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。
我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文 参考訳(メタデータ) (2026-01-08T15:55:13Z) - Scaling with Collapse: Efficient and Predictable Training of LLM Families [8.979516613284174]
崩壊は計算効率のトレーニングのサインとして現れる。
計算効率のトレーニングのサインとして崩壊が現れることを示す。
大規模に2つの応用を実演する。
論文 参考訳(メタデータ) (2025-09-29T17:26:11Z) - Through the River: Understanding the Benefit of Schedule-Free Methods for Language Model Training [35.81422928960327]
本研究では, 損失景観の「川」構造を, 崩壊相や補助平均化を伴わず, 効果的にナビゲート可能であることを示す。
本研究では,大きなバッチサイズにおいて,運動量の向上と性能向上を図ったSFの改良版を提案する。
論文 参考訳(メタデータ) (2025-07-14T00:54:48Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - The Epochal Sawtooth Phenomenon: Unveiling Training Loss Oscillations in Adam and Other Optimizers [8.770864706004472]
テキストEpochal Sawtooth Phenomenon (ESP) と呼ばれる繰り返し学習損失パターンを特定し解析する。
このパターンは、各エポックの始めに急激な損失が減少し、その後徐々に増加し、ソートゥース状の損失曲線が生じる。
論文 参考訳(メタデータ) (2024-10-14T00:51:21Z) - Universal Sharpness Dynamics in Neural Network Training: Fixed Point Analysis, Edge of Stability, and Route to Chaos [5.854190253899593]
ニューラルネットワークの勾配降下ダイナミクスでは、損失ヘッセン(シャープネス)のトップ固有値はトレーニングを通して様々な堅牢な現象を示す。
1つのトレーニング例に基づいて訓練された単純な2ドル層線形ネットワーク(UVモデル)が、実世界のシナリオで観察されるすべての本質的なシャープネス現象を示すことを示した。
論文 参考訳(メタデータ) (2023-11-03T17:59:40Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。