論文の概要: Sens-Merging: Sensitivity-Guided Parameter Balancing for Merging Large Language Models
- arxiv url: http://arxiv.org/abs/2502.12420v2
- Date: Wed, 19 Feb 2025 12:34:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:44.213492
- Title: Sens-Merging: Sensitivity-Guided Parameter Balancing for Merging Large Language Models
- Title(参考訳): Sens-Merging:大規模言語モデルの統合のための感度誘導パラメータバランス
- Authors: Shuqi Liu, Han Wu, Bowei He, Xiongwei Han, Mingxuan Yuan, Linqi Song,
- Abstract要約: Sens-Mergingはモデルマージのための感度誘導係数調整法である。
本研究では,Sens-Mergingが一般知識,数学的推論,コード生成タスクにおいて,性能を著しく向上させることを示す。
本研究は,タスク固有のスケーリングとタスク間の重要なトレードオフを明らかにし,今後のモデルマージ戦略の洞察を提供する。
- 参考スコア(独自算出の注目度): 20.741460682103863
- License:
- Abstract: Recent advances in large language models have led to numerous task-specialized fine-tuned variants, creating a need for efficient model merging techniques that preserve specialized capabilities while avoiding costly retraining. While existing task vector-based merging methods show promise, they typically apply uniform coefficients across all parameters, overlooking varying parameter importance both within and across tasks. We present Sens-Merging, a sensitivity-guided coefficient adjustment method that enhances existing model merging techniques by operating at both task-specific and cross-task levels. Our method analyzes parameter sensitivity within individual tasks and evaluates cross-task transferability to determine optimal merging coefficients. Extensive experiments on Mistral 7B and LLaMA2-7B/13B models demonstrate that Sens-Merging significantly improves performance across general knowledge, mathematical reasoning, and code generation tasks. Notably, when combined with existing merging techniques, our method enables merged models to outperform specialized fine-tuned models, particularly in code generation tasks. Our findings reveal important trade-offs between task-specific and cross-task scalings, providing insights for future model merging strategies.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、タスクに特化して微調整された多くのバリエーションをもたらし、コストのかかる再訓練を回避しつつ、特殊能力を保った効率的なモデルマージ技術の必要性を生み出している。
既存のタスクベクトルベースのマージ手法は将来性を示すが、通常は全てのパラメータに一様係数を適用する。
タスク固有レベルとクロスタスクレベルの両方で操作することで既存のモデルマージ技術を強化する感度誘導係数調整法であるSens-Mergingを提案する。
本手法は,各タスクのパラメータ感度を解析し,最適マージ係数を決定するためにクロスタスク転送性を評価する。
Mistral 7B と LLaMA2-7B/13B モデルに対する大規模な実験により、Sens-Merging は一般知識、数学的推論、コード生成タスクにおいて性能を大幅に向上することが示された。
特に,既存のマージ手法と組み合わせることで,特にコード生成タスクにおいて,マージされたモデルが特別に調整されたモデルよりも優れていることを示す。
本研究は,タスク固有のスケーリングとタスク間の重要なトレードオフを明らかにし,今後のモデルマージ戦略の洞察を提供する。
関連論文リスト
- 1bit-Merging: Dynamic Quantized Merging for Large Language Models [20.19975755949984]
texttt1bit-Mergingは、タスク固有のルーティングと1ビットの量子化されたタスクベクトルを統合し、パフォーマンスとストレージ効率のバランスをとる新しいフレームワークである。
我々は,texttt1bit-Mergingが既存のメソッドと同等あるいは優れた性能を実現し,ストレージ要求を大幅に削減できることを実証した。
論文 参考訳(メタデータ) (2025-02-15T09:47:50Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Parameter Competition Balancing for Model Merging [13.66727853299506]
PCB-Mergingは、効果的なモデルマージのために各パラメータの係数を調整する訓練不要の手法である。
PCB-Mergingは、複数のモダリティ、ドメイン、モデルサイズ、タスク数、微調整フォーム、および大きな言語モデルにわたる大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-10-03T11:17:58Z) - MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities [72.05167902805405]
異種モデルのパラメータ空間のギャップを埋めることを学ぶMergeNetを提案する。
MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリすることで動作する。
MergeNetは両方のモデルと共に学習され、我々のフレームワークは、現在のステージに関する知識を動的に転送し、適応することができます。
論文 参考訳(メタデータ) (2024-04-20T08:34:39Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - A Dirichlet Process Mixture of Robust Task Models for Scalable Lifelong
Reinforcement Learning [11.076005074172516]
強化学習アルゴリズムは、生涯ストリーミング情報に直面すると、破滅的な忘れ物や干渉に容易に遭遇する。
本稿では,ネットワーク容量を動的に拡張し,新たな知識に適合する拡張寿命RL法を提案する。
提案手法は,拡張寿命の長いRLの実現に成功し,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-22T09:48:41Z) - Towards a Unified View of Parameter-Efficient Transfer Learning [108.94786930869473]
下流タスクにおける大規模事前学習言語モデルの微調整は、NLPにおけるデファクト学習パラダイムとなっている。
近年の研究では,少数の(外部)パラメータのみを微調整するだけで高い性能が得られるパラメータ効率の伝達学習法が提案されている。
我々は、最先端のパラメータ効率変換学習手法の設計を分解し、それらの相互接続を確立する統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-08T20:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。