Fugu-MT 論文翻訳(概要): Rethinking Layer-wise Model Merging through Chain of Merges

論文の概要: Rethinking Layer-wise Model Merging through Chain of Merges

arxiv url: http://arxiv.org/abs/2508.21421v2
Date: Wed, 01 Oct 2025 11:54:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-02 14:33:21.724848
Title: Rethinking Layer-wise Model Merging through Chain of Merges
Title（参考訳）: マージの連鎖によるレイヤワイズモデルマージの再考
Authors: Pietro Buzzega, Riccardo Salami, Angelo Porrello, Simone Calderara,
Abstract要約: Chain of Merges(CoM)は、層間で重みを順次マージし、アクティベーション統計を逐次更新するレイヤワイドマージ手順である。標準ベンチマークの実験では、CoMが最先端のパフォーマンスを達成することを示した。
参考スコア（独自算出の注目度）: 21.26982153528304
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-tuning pretrained models has become a standard pathway to achieve state-of-the-art performance across a wide range of domains, leading to a proliferation of task-specific model variants. As the number of such specialized models increases, merging them into a unified model without retraining has become a critical challenge. Existing merging techniques operate at the level of individual layers, thereby overlooking the inter-layer dependencies inherent in deep networks. We show that this simplification leads to distributional mismatches, particularly in methods that rely on intermediate activations, as changes in early layers are not properly propagated to downstream layers during merging. We identify these mismatches as a form of internal covariate shift, comparable to the phenomenon encountered in the initial phases of neural networks training. To address this, we propose Chain of Merges (CoM), a layer-wise merging procedure that sequentially merges weights across layers while sequentially updating activation statistics. By explicitly accounting for inter-layer interactions, CoM mitigates covariate shift and produces a coherent merged model through a series of conditionally optimal updates. Experiments on standard benchmarks demonstrate that CoM achieves state-of-the-art performance.
Abstract（参考訳）: 微調整事前学習モデルは、幅広い領域にわたる最先端のパフォーマンスを達成するための標準的な経路となり、タスク固有のモデル変異が急増している。このような特化モデルの数が増加するにつれて、再訓練なしにそれらを統一モデルにマージすることが重要な課題となっている。既存のマージ技術は個々のレイヤレベルで動作し、ディープネットワーク固有の層間依存関係を見渡す。この単純化は、特に初期層の変化が下流層に適切に伝播しないため、中間活性化に依存する手法において、分布ミスマッチを引き起こすことを示す。我々はこれらのミスマッチを、ニューラルネットワークトレーニングの初期フェーズで発生する現象に匹敵する、内部共変量シフトの一形態として識別する。そこで本研究では,階層間で重みを順次マージし,アクティベーション統計を逐次更新するレイヤワイドマージ手法であるChain of Merges (CoM)を提案する。層間相互作用を明示的に説明することにより、CoMは共変量シフトを緩和し、一連の条件最適更新を通じてコヒーレントなマージモデルを生成する。標準ベンチマークの実験では、CoMが最先端のパフォーマンスを達成することを示した。

関連論文リスト

DMSC: Dynamic Multi-Scale Coordination Framework for Time Series Forecasting [14.176801586961286]
時系列予測(TSF)は、さまざまなスケールにわたる複雑な時間的依存関係をモデル化する上で、永続的な課題に直面します。マルチスケールパッチ分解ブロック(EMPD)、トライアドインタラクションブロック(TIB)、適応スケールルーティングMoEブロック(ASR-MoE)を備えた新しい動的マルチスケールコーディネーションフレームワーク(DMSC)を提案する。 EMPDは、指数関数的にスケールした粒度を持つ階層的なパッチにシーケンスを動的に分割する組み込みコンポーネントとして設計されている。 TIBは、各レイヤの分解された表現の中で、パッチ内、パッチ間、およびクロス変数の依存関係を共同でモデル化する。
論文参考訳（メタデータ） (2025-08-03T13:11:52Z)
Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。残る技術的課題や倫理的考察も分析する。
論文参考訳（メタデータ） (2025-06-05T05:42:27Z)
Vanishing Feature: Diagnosing Model Merging and Beyond [1.1510009152620668]
結合モデルによる伝搬中に入力誘起特徴が減少する「消滅特徴」現象を同定する。既存の正規化戦略は、消滅する特徴問題を的確に標的にすることで強化できることを示す。初期層機能の保存に重点を置いたPFM(Preserve-First Merging')戦略を提案する。
論文参考訳（メタデータ） (2024-02-05T17:06:26Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。 Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文参考訳（メタデータ） (2022-10-27T13:24:08Z)
Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文参考訳（メタデータ） (2021-06-04T14:39:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。