論文の概要: The Blessing of Dimensionality in LLM Fine-tuning: A Variance-Curvature Perspective
- arxiv url: http://arxiv.org/abs/2602.00170v1
- Date: Fri, 30 Jan 2026 00:26:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.023668
- Title: The Blessing of Dimensionality in LLM Fine-tuning: A Variance-Curvature Perspective
- Title(参考訳): LLMファインチューニングにおける次元の祝福--変動・曲率の観点から
- Authors: Qiyao Liang, Jinyeop Song, Yizhou Liu, Jeff Gore, Ila Fiete, Risto Miikkulainen, Xin Qiu,
- Abstract要約: 重量摂動進化戦略は驚くほど人口が少ない言語モデルを微調整できることを示す。
また、細調整報酬がしばしば上昇し、ピークが上昇し、ESとGRPOの両方で劣化するのを観察する。
- 参考スコア(独自算出の注目度): 19.4447760660162
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Weight-perturbation evolution strategies (ES) can fine-tune billion-parameter language models with surprisingly small populations (e.g., $N\!\approx\!30$), contradicting classical zeroth-order curse-of-dimensionality intuition. We also observe a second seemingly separate phenomenon: under fixed hyperparameters, the stochastic fine-tuning reward often rises, peaks, and then degrades in both ES and GRPO. We argue that both effects reflect a shared geometric property of fine-tuning landscapes: they are low-dimensional in curvature. A small set of high-curvature dimensions dominates improvement, producing (i) heterogeneous time scales that yield rise-then-decay under fixed stochasticity, as captured by a minimal quadratic stochastic-ascent model, and (ii) degenerate improving updates, where many random perturbations share similar components along these directions. Using ES as a geometric probe on fine-tuning reward landscapes of GSM8K, ARC-C, and WinoGrande across Qwen2.5-Instruct models (0.5B--7B), we show that reward-improving perturbations remain empirically accessible with small populations across scales. Together, these results reconcile ES scalability with non-monotonic training dynamics and suggest that high-dimensional fine-tuning may admit a broader class of viable optimization methods than worst-case theory implies.
- Abstract(参考訳): 重量摂動進化戦略(ES)は、驚くほど小さな人口(例えば、$N\!
\approx\!
古典的なゼロオーダーの呪いの直観と矛盾する。
固定されたハイパーパラメーターでは、確率的な微調整報酬がしばしば上昇し、ピークが上昇し、ESとGRPOの両方で劣化する。
両効果は微調整景観の共有幾何学的性質を反映しており、曲率では低次元である。
高曲率次元の小さな集合が改善と生産を支配している
一 極小2次確率上昇モデルにより捉えた等質な時間スケール
(II)多くのランダム摂動が同様の成分をこれらの方向に沿って共有する改良更新を退化させる。
GSM8K,ARC-C,WinoGrandeのQwen2.5-Instructモデル(0.5B--7B)における微調整型報奨景観の幾何的プローブとしてESを用いて,報奨改善型摂動は,小規模個体群で実証的にアクセス可能であることを示す。
これらの結果は、ESのスケーラビリティを非単調な訓練力学と整合させ、高次元微調整は最悪のケース理論が示唆するよりも、より広範な最適化手法のクラスを許容する可能性があることを示唆している。
関連論文リスト
- Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback [50.89125374999765]
NLHFにおける最適乗算重み更新(mathtOMWU$)に対する最初の収束保証を提供する。
本分析では, 稀に発生する行動の確率が指数関数的に小さい値から指数関数的に増大する新たな限界収束挙動を同定する。
論文 参考訳(メタデータ) (2025-12-31T12:08:29Z) - When does Gaussian equivalence fail and how to fix it: Non-universal behavior of random features with quadratic scaling [15.148577493784051]
ガウス同値理論 (GET) は、高次元の複素特徴の挙動をガウス級数によって捉えることができると述べている。
しかし、数値実験により、この同値性は一般的なスケーリング体制下での単純な埋め込みでも失敗する可能性があることが示されている。
我々は、低次元のガウス成分を高次元ガウスモデルに付加すると考えられる条件等価(CGE)モデルを導入する。
論文 参考訳(メタデータ) (2025-12-03T00:23:12Z) - PointNSP: Autoregressive 3D Point Cloud Generation with Next-Scale Level-of-Detail Prediction [87.33016661440202]
自動回帰ポイントクラウド生成は、長い間、拡散ベースの品質アプローチに遅れを取ってきた。
低解像度で大域的な形状を保った粗大な生成フレームワークであるPointNSPを提案する。
ShapeNetの実験によると、PointNSPは自己回帰パラダイムの中で初めて、最先端(SOTA)生成品質を確立している。
論文 参考訳(メタデータ) (2025-10-07T06:31:02Z) - Rao-Blackwell Gradient Estimators for Equivariant Denoising Diffusion [55.95767828747407]
分子やタンパク質の生成のようなドメインでは、物理系はモデルにとって重要な固有の対称性を示す。
学習のばらつきを低減し、確率的に低い分散勾配推定器を提供するフレームワークを提案する。
また,軌道拡散法(Orbit Diffusion)と呼ばれる手法を用いて,損失とサンプリングの手順を取り入れた推定器の実用的実装を提案する。
論文 参考訳(メタデータ) (2025-02-14T03:26:57Z) - Hierarchic Flows to Estimate and Sample High-dimensional Probabilities [8.548100130679614]
エネルギーと密度をまたいだロバストなマルチスケール近似を持つ低次元モデルを導入する。
本研究では,これらのウェーブレットモデルを用いて乱流の2次元渦場と暗黒物質の画像を生成する。
論文 参考訳(メタデータ) (2024-05-06T13:44:51Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。