論文の概要: Extra-Merge: Tracing the Rank-1 Subspace of Model Merging in Language Model Pre-Training
- arxiv url: http://arxiv.org/abs/2605.26484v1
- Date: Tue, 26 May 2026 02:48:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.590773
- Title: Extra-Merge: Tracing the Rank-1 Subspace of Model Merging in Language Model Pre-Training
- Title(参考訳): Extra-Merge: 言語モデル事前学習におけるモデルマージのランク1部分空間の追跡
- Authors: Wenjie Zhou, Bohan Wang, Hongtao Zhang, Chenxi Jia, Wei Chen, Xueqi Cheng,
- Abstract要約: Extra-Mergeは、GPT-2およびLLaMAファミリーにわたる実験において、標準のマージベースラインを一貫して上回っている。
Pythia-12B下流のタスクに対して一貫したゼロショット精度のゲインを与え、Muon citepjordan2024muonに効果的に一般化する。
- 参考スコア(独自算出の注目度): 56.323119575322146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging has emerged as a lightweight paradigm for enhancing Large Language Models (LLMs), yet its underlying mechanisms remain poorly understood. In this work, we analyze late-stage pre-training trajectories and uncover a \textbf{Rank-1 Subspace} phenomenon: while raw optimization steps oscillate violently, consecutive \emph{merged} checkpoints collapse onto a stable, approximately one-dimensional linear manifold. We theoretically ground this observation in a \emph{river-valley} landscape analysis: averaging acts as a geometric low-pass filter that dampens high-curvature noise to reveal the optimal descent direction. Capitalizing on this insight, we propose \textbf{Extra-Merge}, a training-free strategy that extrapolates along this subspace to minimize loss without additional gradient updates. Extensive experiments across GPT-2 and LLaMA families (124M to 2B) demonstrate that Extra-Merge consistently outperforms standard merging baselines. Notably, it yields consistent zero-shot accuracy gains on Pythia-12B downstream tasks and generalizes effectively to the Muon optimizer \citep{jordan2024muon}.
- Abstract(参考訳): モデルマージは、LLM(Large Language Models)の拡張のための軽量なパラダイムとして登場したが、その基盤となるメカニズムはよく分かっていない。
本研究では、後期事前学習軌道を解析し、生の最適化ステップが激しく振動する一方で、連続した \emph{merged} チェックポイントが安定な1次元の線形多様体に崩壊する、という、‘textbf{Rank-1 Subspace} 現象を解明する。
平均化は、高曲率ノイズを減衰させて最適な降下方向を明らかにする幾何学的低通過フィルタとして機能する。
この知見に基づいて,新たな勾配更新を伴わずに損失を最小限に抑えるために,この部分空間に沿って外挿するトレーニングフリー戦略である‘textbf{Extra-Merge} を提案する。
GPT-2およびLLaMAファミリー(124Mから2B)にわたる大規模な実験により、Extra-Mergeは標準マージベースラインを一貫して上回ることを示した。
特に、Pythia-12B下流のタスクに対して一貫したゼロショット精度のゲインを与え、Muon Optimizationr \citep{jordan2024muon} に効果的に一般化する。
関連論文リスト
- Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models [65.89572755202245]
拡散言語モデル(DLM)は、より強力なグローバル認識と高い並列生成を提供する。
標準負のエビデンス下界(NELBO)に基づく教師付き微調整後のDLMは非効率である。
そこで本研究では,学習を推論の容易かつハードな構造に整合させる,自己蒸留軌道に基づくポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-12T09:39:06Z) - Efficient Adjoint Matching for Fine-tuning Diffusion Models [47.05085426361986]
本研究では,テキストベースドリフトとテキスト端末コストでSOC問題を修正し,トレーニング効率を大幅に向上するEMAを提案する。
EAMはAMよりも最大4倍早く収束し、PickScore、ImageReward、HPSv2.1、CLIPScore、Aestheticsなど様々なメトリクスにマッチするか、超える。
論文 参考訳(メタデータ) (2026-05-12T03:55:12Z) - Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning [72.62839712454196]
スペクトル最適化の最近の進歩、特にムーンは、スティーフェル多様体への更新ステップの制限が、トレーニングと改善を著しく加速することを示した。
我々は、この「利他的」制約は、曲率スペクトルが非常に重く、不調であることが知られているディープニューラルネットワークに最適であると主張している。
textbfShampoo の textbfStruct を利用した textbfMousse (textbfMuon textbfOptimization textbfUtilizing textbfShampoo's textbfStruct を提案する。
論文 参考訳(メタデータ) (2026-03-10T14:03:49Z) - Robust and Efficient Zeroth-Order LLM Fine-Tuning via Adaptive Bayesian Subspace Optimizer [4.6561758107970395]
ゼロオーダー (ZO) 最適化による微調整大型言語モデル (LLM) は,関数評価による勾配の近似によりメモリ削減を行う。
適応型textbfBayesian textbfSubspace textbfZeroth-Order textbfOptimizer について紹介する。
論文 参考訳(メタデータ) (2026-01-04T09:35:11Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Deep Momentum Multi-Marginal Schr\"odinger Bridge [41.27274841596343]
本稿では,時間的限界制約を満たすシステムに対して,スムーズな測度値アルゴリズムを学習する新しいフレームワークを提案する。
我々のアルゴリズムは、合成データセットと実世界の単一細胞RNAデータセットシーケンスの実験によって証明されたように、ベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-03-03T07:24:38Z) - Interpolating Discriminant Functions in High-Dimensional Gaussian Latent
Mixtures [1.4213973379473654]
本稿では,仮定モデルに基づく高次元特徴のバイナリ分類について考察する。
一般化された最小二乗推定器を用いて、最適分離超平面の方向を推定する。
論文 参考訳(メタデータ) (2022-10-25T21:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。