Fugu-MT 論文翻訳(概要): SE-Merging: A Self-Enhanced Approach for Dynamic Model Merging

論文の概要: SE-Merging: A Self-Enhanced Approach for Dynamic Model Merging

arxiv url: http://arxiv.org/abs/2506.18135v1
Date: Sun, 22 Jun 2025 18:38:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.769534
Title: SE-Merging: A Self-Enhanced Approach for Dynamic Model Merging
Title（参考訳）: SE-Merging: 動的モデルマージのための自己強化アプローチ
Authors: Zijun Chen, Zhanpeng Zhou, Bo Zhang, Weinan Zhang, Xi Sun, Junchi Yan,
Abstract要約: textttSE-Mergingは自己拡張型モデルマージフレームワークである。 textttSE-Mergingは、追加のトレーニングなしで動的モデルのマージを実現することを示す。
参考スコア（独自算出の注目度）: 60.83635006372403
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model merging has gained increasing attention due to its intriguing property: interpolating the parameters of different task-specific fine-tuned models leads to multi-task abilities. However, despite its empirical success, the underlying mechanisms of model merging remain poorly understood. In this work, we delve into the mechanism behind model merging from a representation perspective. Our analysis reveals that model merging achieves multi-task abilities through two key capabilities: i) distinguishing samples from different tasks, and ii) adapting to the corresponding expert model for each sample. These two capabilities allow the merged model to retain task-specific expertise, enabling efficient multi-task adaptation. Building on these insights, we propose \texttt{SE-Merging}, a self-enhanced model merging framework that leverages these two characteristics to dynamically identify the corresponding task for each sample and then adaptively rescales the merging coefficients to further enhance task-specific expertise in the merged model. Notably, \texttt{SE-Merging} achieves dynamic model merging without additional training. Extensive experiments demonstrate that \texttt{SE-Merging} achieves significant performance improvements while remaining compatible with existing model merging techniques.
Abstract（参考訳）: 異なるタスク固有の細調整されたモデルのパラメータを補間すると、マルチタスク能力がもたらされる。しかし、その実証的な成功にもかかわらず、モデルマージの基盤となるメカニズムはいまだに理解されていない。この研究では、表現の観点からモデルマージの背後にあるメカニズムを掘り下げる。我々の分析によると、モデルマージは2つの重要な機能によってマルチタスク能力を実現する。一異なる業務からサンプルを区別すること二サンプルごとに対応する専門家モデルに適合すること。これらの2つの機能は、統合されたモデルがタスク固有の専門知識を保持し、効率的なマルチタスク適応を可能にする。これらの知見に基づいて、これらの2つの特徴を生かした自己強化モデルマージフレームワークである‘texttt{SE-Merging} を提案し、各サンプルの対応するタスクを動的に識別し、マージ係数を適応的に再スケールし、マージモデルにおけるタスク固有の専門知識をさらに強化する。特に、‘texttt{SE-Merging} は、追加のトレーニングなしで動的モデルのマージを実現する。大規模な実験では、既存のモデルマージ技術との互換性を維持しながら、 \texttt{SE-Merging} が大幅な性能向上を実現している。

関連論文リスト

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
Dynamic Fisher-weighted Model Merging via Bayesian Optimization [37.02810891820468]
既存のマージアプローチでは、一般的にパラメータをモデル的にスケーリングするか、パラメータの重要度をパラメータ的に統合する。我々はこれらの戦略をより一般的な統合フレームワークに統合し、動的フィッシャー重み付け(DF-Merge)を導入する。 DF-Mergeは、異なるサイズと様々なタスクのモデルにおいて、強いベースラインを上回ります。
論文参考訳（メタデータ） (2025-04-26T18:31:14Z)
No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces [17.69597528370121]
モデルマージは、複数のタスク固有のモデルの重みを単一のマルチタスクモデルに統合する。この問題に対する最近の関心にもかかわらず、シングルタスクモデルと組み合わせたモデルの間には大きなパフォーマンスギャップが残っている。タスク固有成分とマージ行列の特異成分のアライメントは,性能改善と強く相関していることを示す。
論文参考訳（メタデータ） (2025-02-07T14:22:56Z)
Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文参考訳（メタデータ） (2025-01-16T13:17:24Z)
Parameter Competition Balancing for Model Merging [13.66727853299506]
PCB-Mergingは、効果的なモデルマージのために各パラメータの係数を調整する訓練不要の手法である。 PCB-Mergingは、複数のモダリティ、ドメイン、モデルサイズ、タスク数、微調整フォーム、および大きな言語モデルにわたる大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2024-10-03T11:17:58Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文参考訳（メタデータ） (2023-04-28T15:43:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。