論文の概要: One Size Does Not Fit All: A Distribution-Aware Sparsification for More Precise Model Merging
- arxiv url: http://arxiv.org/abs/2508.06163v1
- Date: Fri, 08 Aug 2025 09:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.177491
- Title: One Size Does Not Fit All: A Distribution-Aware Sparsification for More Precise Model Merging
- Title(参考訳): One Sizeは、すべてを満たさない:より精密なモデルマージのための分散対応スパリフィケーション
- Authors: Yingfeng Luo, Dingyang Lin, Junxin Wang, Ziqiang Xu, Kaiyan Chang, Tong Zheng, Bei Li, Anxiang Ma, Tong Xiao, Zhengtao Yu, Jingbo Zhu,
- Abstract要約: マージ手法の鍵となるテクニックはスパーシフィケーション(sprsification)であり、タスクベクトルから冗長なパラメータを抽出して干渉を緩和する。
textbfTADrop(textbfTensor-wise textbfAdaptive textbfDrop)を導入する。
グローバル比の代わりに、TADropはその分布特性に基づいて各パラメータテンソルに調整された空間レベルを割り当てる。
- 参考スコア(独自算出の注目度): 44.5685148449294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model merging has emerged as a compelling data-free paradigm for multi-task learning, enabling the fusion of multiple fine-tuned models into a single, powerful entity. A key technique in merging methods is sparsification, which prunes redundant parameters from task vectors to mitigate interference. However, prevailing approaches employ a ``one-size-fits-all'' strategy, applying a uniform sparsity ratio that overlooks the inherent structural and statistical heterogeneity of model parameters. This often leads to a suboptimal trade-off, where critical parameters are inadvertently pruned while less useful ones are retained. To address this limitation, we introduce \textbf{TADrop} (\textbf{T}ensor-wise \textbf{A}daptive \textbf{Drop}), an adaptive sparsification strategy that respects this heterogeneity. Instead of a global ratio, TADrop assigns a tailored sparsity level to each parameter tensor based on its distributional properties. The core intuition is that tensors with denser, more redundant distributions can be pruned aggressively, while sparser, more critical ones are preserved. As a simple and plug-and-play module, we validate TADrop by integrating it with foundational, classic, and SOTA merging methods. Extensive experiments across diverse tasks (vision, language, and multimodal) and models (ViT, BEiT) demonstrate that TADrop consistently and significantly boosts their performance. For instance, when enhancing a leading merging method, it achieves an average performance gain of 2.0\% across 8 ViT-B/32 tasks. TADrop provides a more effective way to mitigate parameter interference by tailoring sparsification to the model's structure, offering a new baseline for high-performance model merging.
- Abstract(参考訳): モデルマージはマルチタスク学習のための魅力的なデータフリーパラダイムとして登場し、複数の微調整モデルの単一の強力なエンティティへの融合を可能にしている。
マージ手法における重要なテクニックはスパーシフィケーションであり、タスクベクトルから冗長なパラメータを抽出して干渉を緩和する。
しかし、一般的なアプローチは '1-size-fits-all' 戦略を採用し、モデルパラメータの固有の構造的および統計的不均一性を見越す均一な空間比を適用している。
これはしばしば、重要なパラメータが不注意に刈り取られ、有用でないパラメータが保持されるような、最適以下のトレードオフにつながる。
この制限に対処するために、この不均一性を尊重する適応的なスパース化戦略である \textbf{TADrop} (\textbf{T}ensor-wise \textbf{A}daptive \textbf{Drop}) を導入する。
グローバル比の代わりに、TADropはその分布特性に基づいて各パラメータテンソルに調整された空間レベルを割り当てる。
中心的な直観は、より密度が高く、より冗長な分布を持つテンソルを攻撃的に刈り取ることができる一方で、より重要なテンソルは保存されるということである。
シンプルなプラグイン・アンド・プレイモジュールとして,基礎的,古典的,SOTAの融合手法と組み合わせることで,TADropを検証する。
様々なタスク(ビジョン、言語、マルチモーダル)とモデル(ViT、BEiT)にわたる大規模な実験は、TADropが一貫してパフォーマンスを著しく向上させることを示した。
例えば、リードマージ手法の強化時には、8つのViT-B/32タスクで平均2.0\%の性能向上を達成する。
TADropは、モデル構造へのスパーシフィケーションを調整し、パラメータ干渉を軽減し、高性能なモデルマージのための新しいベースラインを提供する。
関連論文リスト
- Dynamic Fisher-weighted Model Merging via Bayesian Optimization [37.02810891820468]
既存のマージアプローチでは、一般的にパラメータをモデル的にスケーリングするか、パラメータの重要度をパラメータ的に統合する。
我々はこれらの戦略をより一般的な統合フレームワークに統合し、動的フィッシャー重み付け(DF-Merge)を導入する。
DF-Mergeは、異なるサイズと様々なタスクのモデルにおいて、強いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-04-26T18:31:14Z) - Parameter Efficient Merging for Multimodal Large Language Models with Complementary Parameter Adaptation [17.39117429338763]
相補的パラメータ適応を用いたトレーニング不要なパラメータ効率的なマージ手法であるCoPA-Mergingを提案する。
多様なマルチモーダルタスクからなるベンチマークを構築し,本手法の卓越した性能と一般化性を証明する実験を行った。
論文 参考訳(メタデータ) (2025-02-24T13:52:05Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Parameter Competition Balancing for Model Merging [13.66727853299506]
PCB-Mergingは、効果的なモデルマージのために各パラメータの係数を調整する訓練不要の手法である。
PCB-Mergingは、複数のモダリティ、ドメイン、モデルサイズ、タスク数、微調整フォーム、および大きな言語モデルにわたる大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-10-03T11:17:58Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。