論文の概要: LEWIS (LayEr WIse Sparsity) -- A Training Free Guided Model Merging Approach
- arxiv url: http://arxiv.org/abs/2503.03874v1
- Date: Wed, 05 Mar 2025 20:09:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:55.733230
- Title: LEWIS (LayEr WIse Sparsity) -- A Training Free Guided Model Merging Approach
- Title(参考訳): LEWIS (LayEr WISE Sparsity) -- トレーニングフリーガイドモデルマージアプローチ
- Authors: Hetarth Chopra, Vidhi Rambhia, Vikram Adve,
- Abstract要約: LEWIS(Layer Wise Sparsity)は、ガイド付きモデルマージフレームワークである。
階層的なタスク固有の知識を保持することによって、既存のマージ手法をガイドする。
コード命令追従モデルと数解モデルの性能改善によるLEWISの有効性を実証した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: As specialized large language models (LLMs) become increasingly prevalent, model merging methods are being used to combine them to create a single multi-task model without requiring any additional data or training. However, these approaches fall short when the objective of merging is to increase the downstream model's performance on a particular task-specific benchmark. In this work, we propose LEWIS (Layer Wise Sparsity), a guided model-merging framework that uses activation-based layer importance to dynamically adjust layer-wise task-vector sparsity required for the merge process. LEWIS uses a calibration dataset to prioritize critical layers during the task-vector pruning process required for model merging. This approach guides existing merging methods by preserving essential layer-wise task-specific knowledge while ensuring the merged model performs the best at benchmarks resembling the calibration dataset. Our experiments demonstrate the effectiveness of LEWIS with performance improvements of code instruction-following and math-solving models created through model merging up to 4 percent and 11.3 percent, respectively, outperforming unguided data-less model merging approaches that use uniform-sparsity.
- Abstract(参考訳): 特殊な大規模言語モデル(LLM)が普及するにつれて、追加のデータやトレーニングを必要とせずに単一のマルチタスクモデルを作成するために、モデルマージ手法が使用されている。
しかし、これらのアプローチは、特定のタスク固有のベンチマークで下流モデルの性能を向上させることを目的としている場合、不足する。
本稿では、活性化に基づく層重み付けによるモデル統合フレームワークLEWIS(Layer Wise Sparsity)を提案する。
LEWISはキャリブレーションデータセットを使用して、モデルマージに必要なタスク・ベクター・プルーニングプロセスにおいて重要なレイヤを優先順位付けする。
このアプローチは、階層的なタスク固有の知識を保ちながら、マージモデルがキャリブレーションデータセットに似たベンチマークで最善を尽くすことによって、既存のマージ手法を導く。
実験では,各モデルが最大4%,11.3%のマージして生成したコード命令追従モデルと数解モデルの性能改善によるLEWISの有効性を実証した。
関連論文リスト
- 1bit-Merging: Dynamic Quantized Merging for Large Language Models [20.19975755949984]
texttt1bit-Mergingは、タスク固有のルーティングと1ビットの量子化されたタスクベクトルを統合し、パフォーマンスとストレージ効率のバランスをとる新しいフレームワークである。
我々は,texttt1bit-Mergingが既存のメソッドと同等あるいは優れた性能を実現し,ストレージ要求を大幅に削減できることを実証した。
論文 参考訳(メタデータ) (2025-02-15T09:47:50Z) - No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces [17.69597528370121]
モデルマージは、複数のタスク固有のモデルの重みを単一のマルチタスクモデルに統合する。
この問題に対する最近の関心にもかかわらず、シングルタスクモデルと組み合わせたモデルの間には大きなパフォーマンスギャップが残っている。
タスク固有成分とマージ行列の特異成分のアライメントは,性能改善と強く相関していることを示す。
論文 参考訳(メタデータ) (2025-02-07T14:22:56Z) - Activation-Informed Merging of Large Language Models [10.020512818972357]
本稿では,大規模言語モデルのアクティベーション空間から情報を統合する手法である Activation-Informed Merging (AIM) について述べる。
我々は、AIMが複数のベンチマークでマージされたモデルの性能を大幅に向上させることを実証的に実証した。
論文 参考訳(メタデータ) (2025-02-04T15:42:03Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - Model Merging and Safety Alignment: One Bad Model Spoils the Bunch [70.614652904151]
LLM(Merging Large Language Models)は、複数の専門家のLLMを1つの汎用モデルに結合するコスト効率のよい手法である。
現在のアプローチでは、マージ時の安全性の整合性の重要性を見落とし、非常に不整合のモデルに繋がることが多い。
我々は,既存の手法がドメインの専門知識を伝達するだけでなく,ミスアライメントを伝播することを示すために,いくつかの一般的なモデルマージ手法を評価した。
論文 参考訳(メタデータ) (2024-06-20T17:59:58Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。