論文の概要: Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing
- arxiv url: http://arxiv.org/abs/2502.04411v2
- Date: Tue, 11 Feb 2025 12:09:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:36.748758
- Title: Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing
- Title(参考訳): メディエータ:少ないパラメータ競合と不確実性に基づくルーティングによるメモリ効率のLLMマージ
- Authors: Kunfeng Lai, Zhenheng Tang, Xinglin Pan, Peijie Dong, Xiang Liu, Haolan Chen, Li Shen, Bo Li, Xiaowen Chu,
- Abstract要約: モデルマージ集約 さまざまなタスクに微調整された大きな言語モデルから、より強力なものへ。
本研究では,異なる層がパラメータ衝突のレベルが異なることを観察する。
この洞察に基づいて構築され、大きな矛盾のあるレイヤに対して、新しいタスクレベルのエキスパートルーティングを使用します。
- 参考スコア(独自算出の注目度): 19.681042016834187
- License:
- Abstract: Model merging aggregates Large Language Models (LLMs) finetuned on different tasks into a stronger one. However, parameter conflicts between models leads to performance degradation in averaging. While model routing addresses this issue by selecting individual models during inference, it imposes excessive storage and compute costs, and fails to leverage the common knowledge from different models. In this work, we observe that different layers exhibit varying levels of parameter conflicts. Building on this insight, we average layers with minimal parameter conflicts and use a novel task-level expert routing for layers with significant conflicts. To further reduce storage costs, inspired by task arithmetic sparsity, we decouple multiple fine-tuned experts into a dense expert and several sparse experts. Considering the out-of-distribution samples, we select and merge appropriate experts based on the task uncertainty of the input data. We conduct extensive experiments on both LLaMA and Qwen with varying parameter scales, and evaluate on real-world reasoning tasks. Results demonstrate that our method consistently achieves significant performance improvements while requiring less system cost compared to existing methods.
- Abstract(参考訳): モデルマージ さまざまなタスクに微調整された大言語モデル(LLM)を集約して、より強力なものにします。
しかし、モデル間のパラメータの衝突は平均化の性能低下につながる。
モデルルーティングは、推論中に個々のモデルを選択することでこの問題に対処するが、過剰なストレージと計算コストを課し、異なるモデルからの共通知識を活用できない。
本研究では,異なる層がパラメータ衝突のレベルが異なることを観察する。
この洞察に基づいて、パラメータの衝突を最小限にしたレイヤを平均化し、重大な衝突を持つレイヤに対して、新しいタスクレベルのエキスパートルーティングを使用します。
タスク演算の間隔にインスパイアされたストレージコストをさらに削減するために、複数の微調整されたエキスパートを、より密集したエキスパートとスパースなエキスパートに分離する。
アウト・オブ・ディストリビューション・サンプルを考慮すると、入力データのタスクの不確実性に基づいて適切な専門家を選択し、マージする。
パラメータスケールの異なるLLaMAとQwenの両方で広範な実験を行い、実世界の推論タスクを評価する。
その結果,既存手法に比べてシステムコストの削減を図りながら,優れた性能向上を実現していることがわかった。
関連論文リスト
- FREE-Merging: Fourier Transform for Model Merging with Lightweight Experts [4.7478239658886325]
既存のモデルマージメソッドは、パフォーマンスとデプロイメントコストのトレードオフに直面する。
本稿では、周波数領域情報を利用して有害な特殊情報を効率的にフィルタリングするFR-Mergingを提案する。
フリーマージン(FR-Merging with light expert)は、トレーニングコスト、推論速度、ストレージ要件、パフォーマンスのバランスのとれたトレードオフを打つ。
論文 参考訳(メタデータ) (2024-11-25T15:35:01Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Activated Parameter Locating via Causal Intervention for Model Merging [26.98015572633289]
モデルマージは複数のモデルを1つのモデルに組み合わせ、追加のトレーニングを必要とせずに、説得力のある一般化を実現する。
既存のモデルでは、デルタパラメータの一部を落として、パフォーマンスを維持しながらコンフリクトを緩和できることが示されている。
本稿では、因果的介入を利用して重要度を推定し、より正確なパラメータのドロップとコンフリクトの軽減を可能にするアクティブ・ロケーティング(APL)手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T14:00:00Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - Rethinking Hard-Parameter Sharing in Multi-Task Learning [20.792654758645302]
マルチタスク学習(MTL)におけるハードパラメータ共有により、タスクはモデルのパラメータの一部を共有でき、ストレージコストを低減し、予測精度を向上させることができる。
共通の共有プラクティスは、タスク毎に別々のトップレイヤを使用しながら、タスク間でディープニューラルネットワークのボトムレイヤを共有することだ。
異なるボトム層パラメータを使用することで、一般的なプラクティスよりも大幅にパフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2021-07-23T17:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。