Fugu-MT 論文翻訳(概要): TIES-Merging: Resolving Interference When Merging Models

論文の概要: TIES-Merging: Resolving Interference When Merging Models

arxiv url: http://arxiv.org/abs/2306.01708v2
Date: Fri, 27 Oct 2023 01:09:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-30 17:57:13.164855
Title: TIES-Merging: Resolving Interference When Merging Models
Title（参考訳）: tie-merging: モデルマージ時の干渉を解決する
Authors: Prateek Yadav, Derek Tam, Leshem Choshen, Colin Raffel, Mohit Bansal
Abstract要約: 転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
参考スコア（独自算出の注目度）: 95.59265307318752
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transfer learning - i.e., further fine-tuning a pre-trained model on a downstream task - can confer significant advantages, including improved downstream performance, faster convergence, and better sample efficiency. These advantages have led to a proliferation of task-specific fine-tuned models, which typically can only perform a single task and do not benefit from one another. Recently, model merging techniques have emerged as a solution to combine multiple task-specific models into a single multitask model without performing additional training. However, existing merging methods often ignore the interference between parameters of different models, resulting in large performance drops when merging multiple models. In this paper, we demonstrate that prior merging techniques inadvertently lose valuable information due to two major sources of interference: (a) interference due to redundant parameter values and (b) disagreement on the sign of a given parameter's values across models. To address this, we propose our method, TRIM, ELECT SIGN & MERGE (TIES-Merging), which introduces three novel steps when merging models: (1) resetting parameters that only changed a small amount during fine-tuning, (2) resolving sign conflicts, and (3) merging only the parameters that are in alignment with the final agreed-upon sign. We find that TIES-Merging outperforms several existing methods in diverse settings covering a range of modalities, domains, number of tasks, model sizes, architectures, and fine-tuning settings. We further analyze the impact of different types of interference on model parameters, and highlight the importance of resolving sign interference. Our code is available at https://github.com/prateeky2806/ties-merging
Abstract（参考訳）: トランスファーラーニング(Transfer Learning) - 下流タスクで事前訓練されたモデルをさらに微調整することで、下流のパフォーマンスの向上、収束の高速化、サンプル効率の向上など、大きなメリットを期待できる。これらの利点は、通常1つのタスクしか実行できず、互いに恩恵を受けないタスク固有の微調整モデルの普及につながっている。近年,複数のタスク固有のモデルを追加のトレーニングを行わずに単一のマルチタスクモデルに組み合わせる手法として,モデルマージ技術が登場している。しかし、既存のマージ手法は異なるモデルのパラメータ間の干渉を無視することが多く、複数のモデルのマージ時に大きなパフォーマンス低下が発生する。本稿では,2つの主要な干渉源により,事前統合技術が必然的に貴重な情報を失うことを実証する。 (a)冗長パラメータ値による干渉と (b)モデル間のパラメータの値の符号の不一致。そこで本研究では,(1)微調整時に少量しか変化しないパラメータの再設定,(2)符号衝突の解消,(3)最終合意符号と一致したパラメータのみをマージする,という3つの新しいステップを導入する手法であるtrim,elect sign & merge (ties-merging)を提案する。 TIES-Mergingは、様々なモード、ドメイン、タスク数、モデルサイズ、アーキテクチャ、微調整設定を含む様々な設定において、既存のメソッドよりも優れています。さらに,モデルパラメータに対する様々な干渉の影響を解析し,符号干渉の解消の重要性を強調した。私たちのコードはhttps://github.com/prateeky2806/ties-mergingで利用可能です。

関連論文リスト

Unraveling LoRA Interference: Orthogonal Subspaces for Robust Model Merging [38.12136955174922]
個別タスクのための微調整された大規模言語モデル(LM)は、高いパフォーマンスをもたらすが、デプロイメントやストレージには高価である。最近の研究は、複数のタスク固有のモデルを追加トレーニングなしで単一のマルチタスクモデルに結合するモデルマージについて検討している。既存のマージ方式は、性能劣化のためにローランク適応(LoRA)を微調整したモデルでは失敗することが多い。
論文参考訳（メタデータ） (2025-05-28T23:28:12Z)
Dynamic Fisher-weighted Model Merging via Bayesian Optimization [37.02810891820468]
既存のマージアプローチでは、一般的にパラメータをモデル的にスケーリングするか、パラメータの重要度をパラメータ的に統合する。我々はこれらの戦略をより一般的な統合フレームワークに統合し、動的フィッシャー重み付け(DF-Merge)を導入する。 DF-Mergeは、異なるサイズと様々なタスクのモデルにおいて、強いベースラインを上回ります。
論文参考訳（メタデータ） (2025-04-26T18:31:14Z)
Mitigating Parameter Interference in Model Merging via Sharpness-Aware Fine-Tuning [6.110846759317336]
事前学習のパラダイムを持つ大規模ディープラーニングモデルは、一般的な事前学習モデルから微調整された多数のタスク固有モデルの急増につながっている。これらの大きなモデルを単一のマルチタスクモデル、特にパラメータの単純な算術モデルにマージする研究が進められている。このようなマージ手法は、異なるタスクで微調整されたモデルパラメータ間の干渉という、中心的な課題に直面します。我々は、シャープネスを意識した最小化による事前学習モデルの微調整を提案する。
論文参考訳（メタデータ） (2025-04-20T15:57:12Z)
Parameter Efficient Merging for Multimodal Large Language Models with Complementary Parameter Adaptation [17.39117429338763]
相補的パラメータ適応を用いたトレーニング不要なパラメータ効率的なマージ手法であるCoPA-Mergingを提案する。多様なマルチモーダルタスクからなるベンチマークを構築し,本手法の卓越した性能と一般化性を証明する実験を行った。
論文参考訳（メタデータ） (2025-02-24T13:52:05Z)
Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文参考訳（メタデータ） (2025-01-16T13:17:24Z)
Parameter Competition Balancing for Model Merging [13.66727853299506]
PCB-Mergingは、効果的なモデルマージのために各パラメータの係数を調整する訓練不要の手法である。 PCB-Mergingは、複数のモダリティ、ドメイン、モデルサイズ、タスク数、微調整フォーム、および大きな言語モデルにわたる大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2024-10-03T11:17:58Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
Activated Parameter Locating via Causal Intervention for Model Merging [26.98015572633289]
モデルマージは複数のモデルを1つのモデルに組み合わせ、追加のトレーニングを必要とせずに、説得力のある一般化を実現する。既存のモデルでは、デルタパラメータの一部を落として、パフォーマンスを維持しながらコンフリクトを緩和できることが示されている。本稿では、因果的介入を利用して重要度を推定し、より正確なパラメータのドロップとコンフリクトの軽減を可能にするアクティブ・ロケーティング(APL)手法を提案する。
論文参考訳（メタデータ） (2024-08-18T14:00:00Z)
Twin-Merging: Dynamic Integration of Modular Expertise in Model Merging [21.918559935122786]
モデルマージは、複数のタスク固有のモデルを、余分なトレーニングなしで単一のマルチタスクモデルに結合する、有望な方法である。従来のモデルマージ手法は、微調整されたモデルに比べて大きな性能差を示すことが多い。共有されたタスク固有の知識と排他的なタスク固有の知識の両方が、パフォーマンスのマージには不可欠であるが、排他的な知識を直接マージすることは、全体的なパフォーマンスを妨げていることを示す。本稿では,1)知識を共有コンポーネントと排他コンポーネントにモジュール化し,冗長性を低減し効率を向上する圧縮,(2)共有およびタスク固有の知識を動的にマージする,という2つの主要な段階を包含する手法を提案する。
論文参考訳（メタデータ） (2024-06-17T02:31:55Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
DPPA: Pruning Method for Large Language Model to Model Merging [39.13317231533299]
本稿では、複雑な微調整モデルを統合するという課題に対処するため、DPPA(Dynamic Pruning Partition Amplification)と呼ばれる2段階の手法を提案する。提案手法は,ドメイン固有のパラメータの20%しか保持せず,他の手法に匹敵する性能を提供する。提案手法では, プレニング後の性能が優れており, モデルマージにおける性能が20%近く向上した。
論文参考訳（メタデータ） (2024-03-05T09:12:49Z)
Merging by Matching Models in Task Parameter Subspaces [87.8712523378141]
モデルマージは、個々のタスク固有のモデルを単一のマルチタスクモデルに安価に結合することを目的としている。我々は、モデルマージに対するこのアプローチが、方程式の線形系を解くとみなす方法を定式化する。共役勾配法は閉形式解より優れていることを示す。
論文参考訳（メタデータ） (2023-12-07T14:59:15Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。 6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文参考訳（メタデータ） (2023-05-15T06:40:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。