論文の概要: Revisiting Weight Averaging for Model Merging
- arxiv url: http://arxiv.org/abs/2412.12153v2
- Date: Thu, 03 Apr 2025 11:46:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 17:09:26.751822
- Title: Revisiting Weight Averaging for Model Merging
- Title(参考訳): モデルマージにおけるウェイト平均化の再検討
- Authors: Jiho Choi, Donggyun Kim, Chanhyuk Lee, Seunghoon Hong,
- Abstract要約: モデルマージは、個別に調整されたモデルのパラメータを追加のトレーニングなしで組み合わせることで、マルチタスク学習者を構築することを目的としている。
ウェイト平均化は、ウェイト平均化自身を中心としたタスクベクトルを暗黙的に誘導する。
これらの中心となるタスクベクトルに低ランク近似を適用することにより、マージ性能が大幅に向上する。
- 参考スコア(独自算出の注目度): 16.503826062785773
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Model merging aims to build a multi-task learner by combining the parameters of individually fine-tuned models without additional training. While a straightforward approach is to average model parameters across tasks, this often results in suboptimal performance due to interference among parameters across tasks. In this paper, we present intriguing results that weight averaging implicitly induces task vectors centered around the weight averaging itself and that applying a low-rank approximation to these centered task vectors significantly improves merging performance. Our analysis shows that centering the task vectors effectively reduces task interference and most of task-specific knowledge is concentrated in the top singular vectors. Our method demonstrates robust and scalable performance on vision benchmarks across varying numbers of tasks and model sizes. Furthermore, we observe that our approach is applicable to natural language processing tasks with competitive performance.
- Abstract(参考訳): モデルマージは、個別に調整されたモデルのパラメータを追加のトレーニングなしで組み合わせることで、マルチタスク学習者を構築することを目的としている。
単純なアプローチは、タスク間のモデルパラメータを平均化するが、タスク間のパラメータ間の干渉により、しばしば最適以下のパフォーマンスをもたらす。
本稿では,重み平均化が平均化自身を中心とするタスクベクトルを暗黙的に誘導し,これらの中心となるタスクベクトルに低ランク近似を適用することにより,マージ性能が大幅に向上する,という興味深い結果を示す。
分析の結果,タスクベクトルの集中化はタスク干渉を効果的に減らし,タスク固有知識の大部分は上位特異ベクトルに集中していることがわかった。
本手法は,様々なタスクやモデルサイズにわたるビジョンベンチマークにおいて,堅牢かつスケーラブルな性能を示す。
さらに,本手法は,競合性能を有する自然言語処理タスクに適用可能であることも確認した。
関連論文リスト
- Mitigating Parameter Interference in Model Merging via Sharpness-Aware Fine-Tuning [6.110846759317336]
事前学習のパラダイムを持つ大規模ディープラーニングモデルは、一般的な事前学習モデルから微調整された多数のタスク固有モデルの急増につながっている。
これらの大きなモデルを単一のマルチタスクモデル、特にパラメータの単純な算術モデルにマージする研究が進められている。
このようなマージ手法は、異なるタスクで微調整されたモデルパラメータ間の干渉という、中心的な課題に直面します。
我々は、シャープネスを意識した最小化による事前学習モデルの微調整を提案する。
論文 参考訳(メタデータ) (2025-04-20T15:57:12Z) - Efficient Model Editing with Task-Localized Sparse Fine-tuning [14.792099973449794]
そこで本稿では,明示的な線形化を必要とせず,最小限の干渉でスパースタスクベクトルを構築できるTaLoSを提案する。
事前学習されたモデルには、タスク間の勾配感度が一貫して低いパラメータのサブセットが含まれていることがわかった。
実験により,TaLoSは,タスクの追加や否定において,現在の手法より優れている一方で,トレーニングと推論の効率が向上することが証明された。
論文 参考訳(メタデータ) (2025-04-03T14:20:06Z) - AdaRank: Adaptive Rank Pruning for Enhanced Model Merging [15.383220675351076]
モデルマージは、独立して微調整されたモデルを統合されたフレームワークに統合するための有望なアプローチとして現れている。
AdaRankは、タスクベクトルの最も有用な特異な方向を適応的に選択し、複数のモデルをマージする新しいモデルマージフレームワークである。
AdaRankは、さまざまなバックボーンとタスク数で一貫して最先端のパフォーマンスを実現し、微調整されたモデル間のパフォーマンスギャップを1%近く削減している。
論文 参考訳(メタデータ) (2025-03-28T06:49:06Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Parameter-Efficient Interventions for Enhanced Model Merging [0.7373617024876725]
モデルマージは、タスク固有のモデルからの知識を統一されたマルチタスクモデルに結合し、すべてのタスクデータに対する共同トレーニングを避ける。
モデル全体の表現バイアスを効果的に緩和するマルチタスクモデルマージの新しいアプローチであるIntervMergeを提案する。
IntervMergeは、パラメータが少なくて最先端のアプローチを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-12-22T13:58:12Z) - Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning [19.850893012601638]
連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。
本稿では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-26T01:44:01Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - Editing Models with Task Arithmetic [69.97273155842966]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。
タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。
これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-08T05:50:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。