論文の概要: Channel Merging: Preserving Specialization for Merged Experts
- arxiv url: http://arxiv.org/abs/2412.15283v1
- Date: Wed, 18 Dec 2024 16:07:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:24:49.086705
- Title: Channel Merging: Preserving Specialization for Merged Experts
- Title(参考訳): チャネルマージ - マージ専門家の専門性を維持する
- Authors: Mingyang Zhang, Jing Liu, Ganggui Ding, Xinyi Yu, Linlin Ou, Bohan Zhuang,
- Abstract要約: 本稿では,パラメータ競合を最小限に抑えつつ,ストレージ効率を向上する新しい戦略であるChannel Mergingを紹介する。
我々の実験は、Channel Mergingが、英語や中国語の推論、数学的推論、コード生成といったタスクにおいて、未マージされたモデルに一致して、常に高いパフォーマンスを提供することを示した。
- 参考スコア(独自算出の注目度): 16.122289324737366
- License:
- Abstract: Lately, the practice of utilizing task-specific fine-tuning has been implemented to improve the performance of large language models (LLM) in subsequent tasks. Through the integration of diverse LLMs, the overall competency of LLMs is significantly boosted. Nevertheless, traditional ensemble methods are notably memory-intensive, necessitating the simultaneous loading of all specialized models into GPU memory. To address the inefficiency, model merging strategies have emerged, merging all LLMs into one model to reduce the memory footprint during inference. Despite these advances, model merging often leads to parameter conflicts and performance decline as the number of experts increases. Previous methods to mitigate these conflicts include post-pruning and partial merging. However, both approaches have limitations, particularly in terms of performance and storage efficiency when merged experts increase. To address these challenges, we introduce Channel Merging, a novel strategy designed to minimize parameter conflicts while enhancing storage efficiency. This method clusters and merges channel parameters based on their similarity to form several groups offline. By ensuring that only highly similar parameters are merged within each group, it significantly reduces parameter conflicts. During inference, we can instantly look up the expert parameters from the merged groups, preserving specialized knowledge. Our experiments demonstrate that Channel Merging consistently delivers high performance, matching unmerged models in tasks like English and Chinese reasoning, mathematical reasoning, and code generation. Moreover, it obtains results comparable to model ensemble with just 53% parameters when used with a task-specific router.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の性能向上のため,タスク固有の微調整の実践が実施されている。
多様なLLMの統合により、LLMの全体的な能力は大幅に向上する。
それでも、従来のアンサンブル方式は特にメモリ集約的であり、GPUメモリに特別なモデルを同時にロードする必要がある。
不効率に対処するため、モデルマージ戦略が出現し、全てのLCMを1つのモデルにマージし、推論時のメモリフットプリントを削減する。
これらの進歩にもかかわらず、モデルマージはしばしばパラメータの衝突とパフォーマンスの低下をもたらし、専門家の数が増加する。
これらの衝突を緩和するための従来の方法は、後処理と部分的なマージである。
しかし、どちらのアプローチも制限があり、特にマージされた専門家が増加すると、性能とストレージ効率が向上する。
これらの課題に対処するため,ストレージ効率を向上しつつパラメータ競合を最小限に抑える新しい戦略であるChannel Mergingを紹介した。
このメソッドは、類似性に基づいてチャネルパラメータをクラスタ化しマージし、複数のグループをオフラインにする。
非常に類似したパラメータだけが各グループにマージされることを保証することで、パラメータの衝突を著しく減少させる。
推論中は、統合されたグループから専門家のパラメータを即座に調べて、専門的な知識を保存することができます。
我々の実験は、Channel Mergingが、英語や中国語の推論、数学的推論、コード生成といったタスクにおいて、未マージされたモデルに一致して、常に高いパフォーマンスを提供することを示した。
さらに、タスク固有のルータを使用する場合、たった53%のパラメータを持つモデルアンサンブルに匹敵する結果が得られる。
関連論文リスト
- 1bit-Merging: Dynamic Quantized Merging for Large Language Models [20.19975755949984]
texttt1bit-Mergingは、タスク固有のルーティングと1ビットの量子化されたタスクベクトルを統合し、パフォーマンスとストレージ効率のバランスをとる新しいフレームワークである。
我々は,texttt1bit-Mergingが既存のメソッドと同等あるいは優れた性能を実現し,ストレージ要求を大幅に削減できることを実証した。
論文 参考訳(メタデータ) (2025-02-15T09:47:50Z) - Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing [19.681042016834187]
モデルマージ集約 さまざまなタスクに微調整された大きな言語モデルから、より強力なものへ。
本研究では,異なる層がパラメータ衝突のレベルが異なることを観察する。
この洞察に基づいて構築され、大きな矛盾のあるレイヤに対して、新しいタスクレベルのエキスパートルーティングを使用します。
論文 参考訳(メタデータ) (2025-02-06T11:26:30Z) - Optimize Incompatible Parameters through Compatibility-aware Knowledge Integration [104.52015641099828]
既存の研究は、そのようなパラメータを除去したり、複数の異なる事前訓練されたモデルの出力をマージすることに長けている。
本稿では,Deep AssessmentとDeep SplicingからなるCompatibility-Aware Knowledge Integration (CKI)を提案する。
統合モデルは推論やさらなる微調整に直接使用することができる。
論文 参考訳(メタデータ) (2025-01-10T01:42:43Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Parameter Competition Balancing for Model Merging [13.66727853299506]
PCB-Mergingは、効果的なモデルマージのために各パラメータの係数を調整する訓練不要の手法である。
PCB-Mergingは、複数のモダリティ、ドメイン、モデルサイズ、タスク数、微調整フォーム、および大きな言語モデルにわたる大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-10-03T11:17:58Z) - Activated Parameter Locating via Causal Intervention for Model Merging [26.98015572633289]
モデルマージは複数のモデルを1つのモデルに組み合わせ、追加のトレーニングを必要とせずに、説得力のある一般化を実現する。
既存のモデルでは、デルタパラメータの一部を落として、パフォーマンスを維持しながらコンフリクトを緩和できることが示されている。
本稿では、因果的介入を利用して重要度を推定し、より正確なパラメータのドロップとコンフリクトの軽減を可能にするアクティブ・ロケーティング(APL)手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T14:00:00Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。