論文の概要: DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling
- arxiv url: http://arxiv.org/abs/2406.11617v1
- Date: Mon, 17 Jun 2024 15:02:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 14:22:35.845118
- Title: DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling
- Title(参考訳): DELLA-Merging: マグニチュードに基づくサンプリングによるモデルマージにおける干渉低減
- Authors: Pala Tej Deep, Rishabh Bhardwaj, Soujanya Poria,
- Abstract要約: そこで本研究では,mAgnitude(DELLA-Merging)とSampLingを併用した新しいモデルマージ手法であるDropとrEscaLeを提案する。
MAGPRUNEはまず、これらのパラメータを等級順にランク付けし、より低い等級のパラメータに高い降下確率(p)を割り当てる。
- 参考スコア(独自算出の注目度): 24.270321913746233
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the proliferation of domain-specific models, model merging has emerged as a set of techniques that combine the capabilities of multiple models into one that can multitask without the cost of additional training. In this paper, we propose a new model merging technique, Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), that employs a novel pruning technique, MAGPRUNE, which shows significant advantages over DARE and TIES. MAGPRUNE first ranks the parameters in order of their magnitude and assigns higher dropout probabilities (p) to parameters with lower ranks corresponding to lower magnitudes. To approximate the original embeddings, MAGPRUNE employs a rescaling operation on the parameters that survive the random dropping by 1/(1 - p). On three different expert models considered for merging (LM, Math, Code) and corresponding benchmark datasets (AlpacaEval, GSM8K, MBPP), DELLA shows an average improvement of 2.4 points over baseline methods employing delta parameter pruning (an improvement of 3.6 points over TIES, 1.2 points over DARE), and 11.1 points over the no-pruning baseline (TA). We release the source code at: https://github.com/declare-lab/della.
- Abstract(参考訳): ドメイン固有モデルの普及に伴い、モデルマージは、複数のモデルの能力を追加のトレーニングコストなしでマルチタスクできるものに組み合わせる一連のテクニックとして登場した。
本稿では, mAgnitude (DELLA-Merging) を用いたサンプルリングによる新しいモデルマージ手法であるDrop and rEscaLeを提案する。
MAGPRUNEはまず、これらのパラメータを等級順にランク付けし、より低い等級のパラメータに高い降下確率(p)を割り当てる。
元の埋め込みを近似するために、MAGPRUNEは1/(1-p)のランダム降下に耐えるパラメータに再スケーリング演算を用いる。
マージ(LM、Math、Code)およびそれに対応するベンチマークデータセット(AlpacaEval、GSM8K、MBPP)の3つの異なる専門家モデルにおいて、DELLAはデルタパラメータプルーニング(TIESより3.6ポイント、DAREより1.2ポイント)を使ったベースライン法よりも2.4ポイントの平均的な改善を示し、非プルーニングベースライン(TA)では11.1ポイントである。
ソースコードは、https://github.com/declare-lab/della.comで公開しています。
関連論文リスト
- SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs [44.03692512352445]
カラムレベル適応量量子化(CLAQ)は、LLM(Large Language Models)量子化のための新しく効果的なフレームワークである。
本稿では,LLM量子化のための3種類の適応戦略を導入することで,新しい効果的なCLAQフレームワークを提案する。
LLaMA-1, LLaMA-2, Yi など,様々な主要なオープンソース LLM に関する実験により, 提案手法が様々なビット設定における最先端結果を達成することを示す。
論文 参考訳(メタデータ) (2024-05-27T14:49:39Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch [72.97553348776425]
スーパーバイザード・ファインチューニング (SFT) LMの能力に影響を与えることなく、ほとんどのデルタパラメータを設定するためにDAREを導入する。
次に、DAREを汎用プラグインとして使用し、複数のSFTモデルのデルタパラメータを分散し、それらを単一のモデルにマージする。
また、DAREを使用して、Open Leaderboardで70億のパラメータを持つモデルの中で、第1位にランクインした統合LMを作成します。
論文 参考訳(メタデータ) (2023-11-06T13:43:07Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - BERMo: What can BERT learn from ELMo? [6.417011237981518]
言語モデル(ELMo)の埋め込みにおいて提案する線形結合スキームを用いて,異なるネットワーク深さのスケールした内部表現を組み合わせる。
提案手法の利点は,(1)下流タスクの勾配流の改善,(2)代表力の向上である。
論文 参考訳(メタデータ) (2021-10-18T17:35:41Z) - Bayesian multiscale deep generative model for the solution of
high-dimensional inverse problems [0.0]
深層確率的生成モデルに基づく新しいマルチスケールベイズ推論手法が導入された。
この方法は、安定性、効率、精度を示しながら、高次元パラメータ推定を可能にする。
論文 参考訳(メタデータ) (2021-02-04T11:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。