論文の概要: MASS: MoErging through Adaptive Subspace Selection
- arxiv url: http://arxiv.org/abs/2504.05342v1
- Date: Sun, 06 Apr 2025 08:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:31:55.871301
- Title: MASS: MoErging through Adaptive Subspace Selection
- Title(参考訳): MASS: 適応サブスペース選択によるMoErging
- Authors: Donato Crisostomi, Alessandro Zirilli, Antonio Andrea Gargiulo, Maria Sofia Bucarelli, Simone Scardapane, Fabrizio Silvestri, Iacopo Masi, Emanuele Rodolà,
- Abstract要約: モデルマージの新しいアプローチであるMASS(MoErging through Adaptive Subspace Selection)を提案する。
MASSはタスクごとに最も健全な特異なコンポーネントのみを格納し、それらを共有モデルにマージする。
我々は,8,14,20タスクのベンチマークに対して,ViT-B-16,ViT-B-32,ViT-L-14を用いて,CLIPに基づく画像分類のMASSを評価する。
- 参考スコア(独自算出の注目度): 55.03293736484465
- License:
- Abstract: Model merging has recently emerged as a lightweight alternative to ensembling, combining multiple fine-tuned models into a single set of parameters with no additional training overhead. Yet, existing merging methods fall short of matching the full accuracy of separately fine-tuned endpoints. We present MASS (MoErging through Adaptive Subspace Selection), a new approach that closes this gap by unifying multiple fine-tuned models while retaining near state-of-the-art performance across tasks. Building on the low-rank decomposition of per-task updates, MASS stores only the most salient singular components for each task and merges them into a shared model. At inference time, a non-parametric, data-free router identifies which subspace (or combination thereof) best explains an input's intermediate features and activates the corresponding task-specific block. This procedure is fully training-free and introduces only a two-pass inference overhead plus a ~2 storage factor compared to a single pretrained model, irrespective of the number of tasks. We evaluate MASS on CLIP-based image classification using ViT-B-16, ViT-B-32 and ViT-L-14 for benchmarks of 8, 14 and 20 tasks respectively, establishing a new state-of-the-art. Most notably, MASS recovers up to ~98% of the average accuracy of individual fine-tuned models, making it a practical alternative to ensembling at a fraction of the storage cost.
- Abstract(参考訳): モデルマージは、最近、アンサンブルの軽量な代替品として登場し、複数の微調整されたモデルを、追加のトレーニングオーバーヘッドなしで単一のパラメータセットに組み合わせている。
しかし、既存のマージ手法は、個別に調整されたエンドポイントの完全な精度に合わない。
タスク間における最先端性能を維持しつつ、複数の微調整モデルを統合することで、このギャップを埋める新しいアプローチであるMASS(MoErging through Adaptive Subspace Selection)を提案する。
タスク毎のアップデートの低ランク分解に基づいて、MASSはタスク毎の最も健全な特異なコンポーネントのみを格納し、それらを共有モデルにマージする。
推論時に、非パラメトリックなデータフリールータは、どのサブスペース(またはその組み合わせ)が入力の中間的特徴を最もよく説明しているかを特定し、対応するタスク固有ブロックを起動する。
この手順は完全にトレーニング不要で、タスクの数に関係なく、2パスの推論オーバーヘッドと1つの事前訓練されたモデルと比較して ~2 のストレージファクタしか導入しない。
我々は,VT-B-16,VT-B-32,VT-L-14を用いて,CLIPに基づく画像分類におけるMASSを評価し,それぞれ8,14,20タスクのベンチマークを行い,新しい最先端技術を確立した。
最も注目すべきは、MASSは個々の微調整モデルの平均精度の98%まで回復し、ストレージコストのごく一部でアンサンブルの代替となることである。
関連論文リスト
- Test-Time Alignment via Hypothesis Reweighting [56.71167047381817]
大規模な事前訓練されたモデルは、しばしば未指定のタスクで苦労する。
テストタイムのユーザ意図にモデルを整合させるという課題に対処する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T23:02:26Z) - Localizing Task Information for Improved Model Merging and Compression [61.16012721460561]
我々は,各タスクの重み付けが重なり合わないことが多いため,各タスクがマージされた後も,各タスクの解決に必要な情報が保存されていることを示す。
本稿では,そのような重みを排除し,既存のモデルマージ手法の一般的な性能を改善するアルゴリズムであるConsensus Mergingを提案する。
論文 参考訳(メタデータ) (2024-05-13T14:54:37Z) - M-DEW: Extending Dynamic Ensemble Weighting to Handle Missing Values [2.8861431208787525]
我々は、不足データを用いて下流予測を行うための新しいAutoML技術を開発した。
M-DEWは18実験中17実験において、モデルパープレキシティの統計的に有意な減少を生じるという、最先端技術よりも優れていることが示されている。
論文 参考訳(メタデータ) (2024-04-30T20:13:18Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Building a Winning Team: Selecting Source Model Ensembles using a
Submodular Transferability Estimation Approach [20.86345962679122]
公開されている事前訓練されたモデルの目標タスクへの転送可能性の推定は、伝達学習タスクにとって重要な場所となっている。
本稿では, モデルアンサンブルの下流タスクへの転送可能性を評価するために, 最適なtranSportベースのsuBmOdular tRaNsferability Metrics(OSBORN)を提案する。
論文 参考訳(メタデータ) (2023-09-05T17:57:31Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。
本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。
最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文 参考訳(メタデータ) (2020-11-09T21:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。