論文の概要: How does the optimizer implicitly bias the model merging loss landscape?
- arxiv url: http://arxiv.org/abs/2510.04686v1
- Date: Mon, 06 Oct 2025 10:56:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.812239
- Title: How does the optimizer implicitly bias the model merging loss landscape?
- Title(参考訳): オープティマイザは、モデルとマージした損失の風景を暗黙的にバイアスしますか?
- Authors: Chenxiang Zhang, Alexander Theus, Damien Teney, Antonio Orvieto, Jun Pang, Sjouke Mauw,
- Abstract要約: 一つの量 -- 効果的なノイズスケール -- が、モデルマージにおける推論とデータ選択の影響を統一することを示します。
データセット全体にわたって、マージ成功の有効性は、有効雑音の非単調関数であり、明確な最適値である。
- 参考スコア(独自算出の注目度): 66.96572894292895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging methods combine models with different capabilities into a single one while maintaining the same inference cost. Two popular approaches are linear interpolation, which linearly interpolates between model weights, and task arithmetic, which combines task vectors obtained by the difference between finetuned and base models. While useful in practice, what properties make merging effective are poorly understood. This paper explores how the optimization process affects the loss landscape geometry and its impact on merging success. We show that a single quantity -- the effective noise scale -- unifies the impact of optimizer and data choices on model merging. Across architectures and datasets, the effectiveness of merging success is a non-monotonic function of effective noise, with a distinct optimum. Decomposing this quantity, we find that larger learning rates, stronger weight decay, smaller batch sizes, and data augmentation all independently modulate the effective noise scale, exhibiting the same qualitative trend. Unlike prior work that connects optimizer noise to the flatness or generalization of individual minima, we show that it also affects the global loss landscape, predicting when independently trained solutions can be merged. Our findings broaden the understanding of how optimization shapes the loss landscape geometry and its downstream consequences for model merging, suggesting the possibility of further manipulating the training dynamics to improve merging effectiveness.
- Abstract(参考訳): モデルマージ手法は同じ推論コストを維持しながら、異なる機能を持つモデルをひとつのモデルに統合する。
2つの一般的なアプローチは、モデルの重みを線形に補間する線形補間と、微調整されたモデルとベースモデルの違いによって得られるタスクベクトルを組み合わせたタスク算術である。
実際には有用であるが、マージを効果的に行う性質は理解されていない。
本稿では、最適化プロセスが損失景観の幾何学的構造にどのように影響するか、およびマージ成功に与える影響について考察する。
一つの量 -- 効果的なノイズスケール -- が、最適化器とデータ選択がモデルマージに与える影響を統一することを示します。
アーキテクチャやデータセット全体にわたって、マージ成功の有効性は、有効雑音の非単調関数であり、明確な最適値である。
この量を分解すると、より大きな学習率、より強いウェイト崩壊、より小さなバッチサイズ、データ拡張がそれぞれ独立して有効雑音尺度を変調し、同じ定性的傾向を示すことが分かる。
個別のミニマムの平坦性や一般化にオプティマイザノイズを接続する以前の作業とは異なり、独立に訓練されたソリューションがマージ可能であることを予測して、グローバルなロスランドスケープにも影響を及ぼすことを示す。
本研究は, モデルマージにおける損失地形形状の最適化とその下流結果の理解を深め, マージ効率を向上させるためのトレーニング力学のさらなる操作の可能性を示した。
関連論文リスト
- Dynamic Fisher-weighted Model Merging via Bayesian Optimization [37.02810891820468]
既存のマージアプローチでは、一般的にパラメータをモデル的にスケーリングするか、パラメータの重要度をパラメータ的に統合する。
我々はこれらの戦略をより一般的な統合フレームワークに統合し、動的フィッシャー重み付け(DF-Merge)を導入する。
DF-Mergeは、異なるサイズと様々なタスクのモデルにおいて、強いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-04-26T18:31:14Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Learning Distributionally Robust Models at Scale via Composite
Optimization [45.47760229170775]
DROの異なる変種が、スケーラブルな方法を提供する有限サム合成最適化の単なる例であることを示す。
また、非常に大規模なデータセットからロバストなモデルを学ぶために、先行技術に関して提案アルゴリズムの有効性を示す実験結果も提供する。
論文 参考訳(メタデータ) (2022-03-17T20:47:42Z) - Unleashing the Power of Contrastive Self-Supervised Visual Models via
Contrast-Regularized Fine-Tuning [94.35586521144117]
コントラスト学習を微調整に適用することでさらにメリットが得られるか検討する。
本研究では,コントラスト正規化調律(core-tuning)を提案する。
論文 参考訳(メタデータ) (2021-02-12T16:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。