論文の概要: StatsMerging: Statistics-Guided Model Merging via Task-Specific Teacher Distillation
- arxiv url: http://arxiv.org/abs/2506.04567v1
- Date: Thu, 05 Jun 2025 02:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.495053
- Title: StatsMerging: Statistics-Guided Model Merging via Task-Specific Teacher Distillation
- Title(参考訳): 統計処理:タスク特化教師蒸留による統計誘導モデルマージ
- Authors: Ranjith Merugu, Bryan Bo Cao, Shubham Jain,
- Abstract要約: StatsMergingは、基礎となる真理ラベルやテストサンプルを必要とせずに、重量分布統計によって導かれる学習ベースのモデルマージ手法である。
タスク固有の事前学習モデルの重量分布をモデル化するために、軽量な学習者StatsLearnerを使用している。
以上の結果から,StatsMergingは全体の精度,未確認タスクへの一般化,画像品質の変動に対する堅牢性において,最先端技術よりも優れていた。
- 参考スコア(独自算出の注目度): 4.5853328688992905
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Model merging has emerged as a promising solution to accommodate multiple large models within constrained memory budgets. We present StatsMerging, a novel lightweight learning-based model merging method guided by weight distribution statistics without requiring ground truth labels or test samples. StatsMerging offers three key advantages: (1) It uniquely leverages singular values from singular value decomposition (SVD) to capture task-specific weight distributions, serving as a proxy for task importance to guide task coefficient prediction; (2) It employs a lightweight learner StatsMergeLearner to model the weight distributions of task-specific pre-trained models, improving generalization and enhancing adaptation to unseen samples; (3) It introduces Task-Specific Teacher Distillation for merging vision models with heterogeneous architectures, a merging learning paradigm that avoids costly ground-truth labels by task-specific teacher distillation. Notably, we present two types of knowledge distillation, (a) distilling knowledge from task-specific models to StatsMergeLearner; and (b) distilling knowledge from models with heterogeneous architectures prior to merging. Extensive experiments across eight tasks demonstrate the effectiveness of StatsMerging. Our results show that StatsMerging outperforms state-of-the-art techniques in terms of overall accuracy, generalization to unseen tasks, and robustness to image quality variations.
- Abstract(参考訳): モデルマージは、制約付きメモリ予算内で複数の大きなモデルに対応するための有望なソリューションとして登場した。
地中真理ラベルやテストサンプルを必要とせずに、重量分布統計によって導かれる新しい軽量学習ベースモデルマージ手法StatsMergingを提案する。
StatsMergingは,(1)特異値分解(SVD)からの特異値を利用したタスク依存度分布の抽出,(2)タスク依存度予測のプロキシとして機能する,(2)軽量学習者StatsMergeLearnerを用いてタスク特化事前学習モデルの重み分布をモデル化し,未確認サンプルへの一般化と適応性を向上する,(3)タスク特化型教師用蒸留(Task-Specific Teacher Distillation)と、タスク特化教師用蒸留(Task特化型教師用蒸留(Task特化教師用蒸留)とを融合させる,タスク特化型教師用蒸留(Task特化教師用蒸留)を導入した。
特に、知識蒸留には2つの種類がある。
(a)タスク特化モデルからStatsMergeLearnerへの知識の蒸留
(b)合併前の異種建築のモデルから知識を蒸留すること。
8つのタスクにわたる大規模な実験は、StatsMergingの有効性を示している。
その結果、StatsMergingは、全体的な精度、未確認タスクへの一般化、画像品質の変動に対する堅牢性の観点から、最先端技術よりも優れていた。
関連論文リスト
- Enhancing Accuracy in Generative Models via Knowledge Transfer [4.3108820946281945]
本研究では,Kullback-Leiblerの分散化など,分散指標下での伝達学習のための新しいフレームワークを提案する。
提案理論は,共有構造が目標タスクの生成精度を向上させることを示唆している。
論文 参考訳(メタデータ) (2024-05-27T05:10:49Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Building a Winning Team: Selecting Source Model Ensembles using a
Submodular Transferability Estimation Approach [20.86345962679122]
公開されている事前訓練されたモデルの目標タスクへの転送可能性の推定は、伝達学習タスクにとって重要な場所となっている。
本稿では, モデルアンサンブルの下流タスクへの転送可能性を評価するために, 最適なtranSportベースのsuBmOdular tRaNsferability Metrics(OSBORN)を提案する。
論文 参考訳(メタデータ) (2023-09-05T17:57:31Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。