Fugu-MT 論文翻訳(概要): Training-Free Pretrained Model Merging

論文の概要: Training-Free Pretrained Model Merging

arxiv url: http://arxiv.org/abs/2403.01753v3
Date: Fri, 15 Mar 2024 10:12:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 22:04:23.893492
Title: Training-Free Pretrained Model Merging
Title（参考訳）: トレーニングフリープレトレーニングモデルマージ
Authors: Zhengqi Xu, Ke Yuan, Huiqiong Wang, Yong Wang, Mingli Song, Jie Song,
Abstract要約: 双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
参考スコア（独自算出の注目度）: 38.16269074353077
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, model merging techniques have surfaced as a solution to combine multiple single-talent models into a single multi-talent model. However, previous endeavors in this field have either necessitated additional training or fine-tuning processes, or require that the models possess the same pre-trained initialization. In this work, we identify a common drawback in prior works w.r.t. the inconsistency of unit similarity in the weight space and the activation space. To address this inconsistency, we propose an innovative model merging framework, coined as merging under dual-space constraints (MuDSC). Specifically, instead of solely maximizing the objective of a single space, we advocate for the exploration of permutation matrices situated in a region with a unified high similarity in the dual space, achieved through the linear combination of activation and weight similarity matrices. In order to enhance usability, we have also incorporated adaptations for group structure, including Multi-Head Attention and Group Normalization. Comprehensive experimental comparisons demonstrate that MuDSC can significantly boost the performance of merged models with various task combinations and architectures. Furthermore, the visualization of the merged model within the multi-task loss landscape reveals that MuDSC enables the merged model to reside in the overlapping segment, featuring a unified lower loss for each task. Our code is publicly available at https://github.com/zju-vipa/training_free_model_merging.
Abstract（参考訳）: 近年,複数の単一タレントモデルと単一マルチタレントモデルを組み合わせたソリューションとして,モデルマージ技術が浮上している。しかし、この分野における以前の取り組みでは、追加のトレーニングや微調整のプロセスが必要になるか、あるいはモデルが同じ事前訓練された初期化を持つ必要がある。この研究において、ウェイト空間とアクティベーション空間における単位類似性の矛盾について、先行研究における共通の欠点を特定する。この不整合に対処するために,双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。具体的には、単一空間の目的のみを最大化する代わりに、双対空間において統一された高類似性を持つ領域に位置する置換行列の探索を、活性化と重み類似性行列の線形結合によって行うことを提唱する。ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。総合的な比較実験により、MuDSCは様々なタスクの組み合わせとアーキテクチャで統合されたモデルの性能を大幅に向上させることができることが示された。さらに、マルチタスクの損失ランドスケープ内のマージモデルの可視化により、MuDSCはマージモデルを重なり合うセグメントに配置することができ、各タスクに統一された低損失を特徴付けることが明らかとなった。私たちのコードはhttps://github.com/zju-vipa/training_free_model_merging.comで公開されています。

関連論文リスト

Model Merging in the Essential Subspace [78.5390284258307]
モデルマージは、複数のタスク固有の細調整されたモデルを、追加のトレーニングなしで単一のマルチタスクモデルに統合することを目的としている。広範囲の研究にもかかわらず、タスク干渉は依然として大きな障害であり、しばしば統合されたモデルの性能を損なう。効率的なモデルマージのための堅牢なフレームワークであるESM(Essential Subspace Merging)を提案する。
論文参考訳（メタデータ） (2026-02-23T00:33:38Z)
Towards Reversible Model Merging For Low-rank Weights [5.100622189286672]
モデルマージは、複数の微調整されたモデルを1セットの重みにまとめることを目的としており、すべてのソースタスクでうまく機能する。従来のマージ法を低ランクウェイトに適用すると, マージモデルの性能が著しく低下することを示す。すべてのアダプタを1組の重みに分解する代わりに、コンパクトな基底を構築する。これは、単一のマージモデルを生成するのではなく、再構成可能なモデル空間を生成するものとしてマージされる。
論文参考訳（メタデータ） (2025-10-15T23:22:38Z)
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
Model Assembly Learning with Heterogeneous Layer Weight Merging [57.8462476398611]
モデル統合のための新しいパラダイムであるモデルアセンブリ学習(MAL)を紹介する。 MALは、様々なモデルのパラメータをオープンエンドモデル動物園に統合し、ベースモデルの能力を高める。
論文参考訳（メタデータ） (2025-03-27T16:21:53Z)
No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces [17.69597528370121]
モデルマージは、複数のタスク固有のモデルの重みを単一のマルチタスクモデルに統合する。この問題に対する最近の関心にもかかわらず、シングルタスクモデルと組み合わせたモデルの間には大きなパフォーマンスギャップが残っている。タスク固有成分とマージ行列の特異成分のアライメントは,性能改善と強く相関していることを示す。
論文参考訳（メタデータ） (2025-02-07T14:22:56Z)
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文参考訳（メタデータ） (2025-01-02T12:45:21Z)
Training-free Heterogeneous Model Merging [40.681362819808136]
異種モデル用に設計された革新的なモデルマージフレームワークを提案する。構造的に不均一なモデルのマージは、均質なマージに匹敵する性能レベルを達成することができることを示す。私たちのコードはhttps://github.com/zju-vipa/training_free_heterogeneous_model_mergingで公開されています。
論文参考訳（メタデータ） (2024-12-29T04:49:11Z)
Collective Model Intelligence Requires Compatible Specialization [29.590052023903457]
モデルが専門化するにつれて、特徴空間構造における類似性が減少し、集合的使用能力の妨げとなることを示す。我々は、互換性のある特殊化と呼ばれるものを通して、集合モデルインテリジェンスを達成するための新しい方向を提案する。
論文参考訳（メタデータ） (2024-11-04T15:59:16Z)
The Non-Local Model Merging Problem: Permutation Symmetries and Variance Collapse [25.002218722102505]
モデルマージは、特定のタスクでトレーニングされた複数のエキスパートモデルの重みを、単一のマルチタスクモデルに効率的に結合することを目的としている。この研究は、"非ローカル"マージのより困難なシナリオを探求する。標準的なマージ技術は、この非局所的な環境で効果的に一般化できないことが多い。本稿では,タスク毎のマージモデルの出力アクティベーションを再スケール・シフトするマルチタスク手法を提案する。
論文参考訳（メタデータ） (2024-10-16T17:41:59Z)
HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models [28.993221775758702]
モデルマージ(英: Model merging)は、複数の大きな事前訓練されたモデルを単一のモデルに組み合わせ、パフォーマンスを向上し、タスク適応性を高める手法である。本稿では,よりフレキシブルで包括的なモデルマージ技術への大きな進歩を示す。我々は、重みベクトルのオフラインサンプリングを用いてポリシーと価値ネットワークを訓練し、マージ戦略のオンライン最適化に使用される。
論文参考訳（メタデータ） (2024-09-27T16:31:31Z)
PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
モデル決定型PLeaSをマージする2段階のアルゴリズムを提案する。 PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。マージされたモデルの重みをレイヤワイズ・リースト・スクエアの解として計算する。
論文参考訳（メタデータ） (2024-07-02T17:24:04Z)
Model Merging and Safety Alignment: One Bad Model Spoils the Bunch [70.614652904151]
LLM(Merging Large Language Models)は、複数の専門家のLLMを1つの汎用モデルに結合するコスト効率のよい手法である。現在のアプローチでは、マージ時の安全性の整合性の重要性を見落とし、非常に不整合のモデルに繋がることが多い。我々は,既存の手法がドメインの専門知識を伝達するだけでなく,ミスアライメントを伝播することを示すために,いくつかの一般的なモデルマージ手法を評価した。
論文参考訳（メタデータ） (2024-06-20T17:59:58Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文参考訳（メタデータ） (2023-04-28T15:43:21Z)
Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。 SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。 SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-06-16T16:46:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。