論文の概要: Rethinking Layer-wise Model Merging through Chain of Merges
- arxiv url: http://arxiv.org/abs/2508.21421v1
- Date: Fri, 29 Aug 2025 08:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.971502
- Title: Rethinking Layer-wise Model Merging through Chain of Merges
- Title(参考訳): マージの連鎖によるレイヤワイズモデルマージの再考
- Authors: Pietro Buzzega, Riccardo Salami, Angelo Porrello, Simone Calderara,
- Abstract要約: Chain of Merges(CoM)は、アクティベーション統計を自動回帰的に更新するレイヤワイズマージ手順である。
CoMは一連の条件最適更新を通じてコヒーレントなマージモデルを生成する。
- 参考スコア(独自算出の注目度): 21.26982153528304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning pretrained models has become a standard pathway to achieve state-of-the-art performance across a wide range of domains, leading to a proliferation of task-specific model variants. As the number of such specialized modules in-creases, merging them into a unified model without retraining has become a critical challenge. Existing merging techniques often rely on interference heuristics,importance weighting, or activation matching while treating each layer independently, thereby failing to account for the inter-layer dependencies inherent in deep networks. This simplification leads to distributional mismatches, especially inactivation-based methods, when changes in early layers are not properly reflected in downstream ones. We identify these mismatches as a form of internal covariate shift, comparable to the phenomenon encountered in the initial phases of neural networks training. To address it, we propose Chain of Merges (CoM), a layer-wise merging procedure that updates activation statistics in an auto-regressive fashion, explicitly accounting for cross-layer interactions. CoM produces a coherent merged model through a series of conditionally optimal updates, effectively mitigating degradation caused by covariate shift. Experiments on standard bench-marks demonstrate that CoM achieves state-of-the-art performance.
- Abstract(参考訳): 微調整事前学習モデルは、幅広い領域にわたる最先端のパフォーマンスを達成するための標準的な経路となり、タスク固有のモデル変異が急増している。
このような特殊なモジュールの数が増えるにつれて、再トレーニングなしにそれらを統一モデルにマージすることが重要な課題となっている。
既存のマージ技術は、各層を個別に扱いながら干渉ヒューリスティック、重要重み付け、アクティベーションマッチングに依存しており、ディープネットワークに固有の層間依存関係を考慮できない。
この単純化により、下流層に初期層の変化が適切に反映されない場合、分布ミスマッチ、特に不活性化に基づく手法が生じる。
我々はこれらのミスマッチを、ニューラルネットワークトレーニングの初期フェーズで発生する現象に匹敵する、内部共変量シフトの一形態として識別する。
そこで本研究では, 階層間相互作用を明示的に考慮し, アクティベーション統計を自動回帰的に更新するレイヤワイドマージ手法であるChain of Merges (CoM)を提案する。
CoMは一連の条件最適更新を通じてコヒーレントなマージモデルを生成し、共変量シフトによる劣化を効果的に緩和する。
標準ベンチマークの実験は、CoMが最先端のパフォーマンスを達成することを示す。
関連論文リスト
- DMSC: Dynamic Multi-Scale Coordination Framework for Time Series Forecasting [14.176801586961286]
時系列予測(TSF)は、さまざまなスケールにわたる複雑な時間的依存関係をモデル化する上で、永続的な課題に直面します。
マルチスケールパッチ分解ブロック(EMPD)、トライアドインタラクションブロック(TIB)、適応スケールルーティングMoEブロック(ASR-MoE)を備えた新しい動的マルチスケールコーディネーションフレームワーク(DMSC)を提案する。
EMPDは、指数関数的にスケールした粒度を持つ階層的なパッチにシーケンスを動的に分割する組み込みコンポーネントとして設計されている。
TIBは、各レイヤの分解された表現の中で、パッチ内、パッチ間、およびクロス変数の依存関係を共同でモデル化する。
論文 参考訳(メタデータ) (2025-08-03T13:11:52Z) - Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - Vanishing Feature: Diagnosing Model Merging and Beyond [1.1510009152620668]
結合モデルによる伝搬中に入力誘起特徴が減少する「消滅特徴」現象を同定する。
既存の正規化戦略は、消滅する特徴問題を的確に標的にすることで強化できることを示す。
初期層機能の保存に重点を置いたPFM(Preserve-First Merging')戦略を提案する。
論文 参考訳(メタデータ) (2024-02-05T17:06:26Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。