論文の概要: AdaRank: Adaptive Rank Pruning for Enhanced Model Merging
- arxiv url: http://arxiv.org/abs/2503.22178v1
- Date: Fri, 28 Mar 2025 06:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:32:51.147936
- Title: AdaRank: Adaptive Rank Pruning for Enhanced Model Merging
- Title(参考訳): AdaRank: モデルマージ強化のための適応的なランクプルーニング
- Authors: Chanhyuk Lee, Jiho Choi, Chanryeol Lee, Donggyun Kim, Seunghoon Hong,
- Abstract要約: モデルマージは、独立して微調整されたモデルを統合されたフレームワークに統合するための有望なアプローチとして現れている。
AdaRankは、タスクベクトルの最も有用な特異な方向を適応的に選択し、複数のモデルをマージする新しいモデルマージフレームワークである。
AdaRankは、さまざまなバックボーンとタスク数で一貫して最先端のパフォーマンスを実現し、微調整されたモデル間のパフォーマンスギャップを1%近く削減している。
- 参考スコア(独自算出の注目度): 15.383220675351076
- License:
- Abstract: Model merging has emerged as a promising approach for unifying independently fine-tuned models into an integrated framework, significantly enhancing computational efficiency in multi-task learning. Recently, several SVD-based techniques have been introduced to exploit low-rank structures for enhanced merging, but their reliance on such manually designed rank selection often leads to cross-task interference and suboptimal performance. In this paper, we propose AdaRank, a novel model merging framework that adaptively selects the most beneficial singular directions of task vectors to merge multiple models. We empirically show that the dominant singular components of task vectors can cause critical interference with other tasks, and that naive truncation across tasks and layers degrades performance. In contrast, AdaRank dynamically prunes the singular components that cause interference and offers an optimal amount of information to each task vector by learning to prune ranks during test-time via entropy minimization. Our analysis demonstrates that such method mitigates detrimental overlaps among tasks, while empirical results show that AdaRank consistently achieves state-of-the-art performance with various backbones and number of tasks, reducing the performance gap between fine-tuned models to nearly 1%.
- Abstract(参考訳): モデルマージは、独立に微調整されたモデルを統合されたフレームワークに統合し、マルチタスク学習における計算効率を大幅に向上させる、有望なアプローチとして現れてきた。
近年,手動で設計したランク選択に依存した低ランク構造を利用するSVDベースの手法がいくつか導入されているが,これらの手法はクロスタスク干渉や準最適性能をもたらすことがしばしばある。
本稿では、タスクベクトルの最も有用な特異な方向を適応的に選択し、複数のモデルをマージする新しいモデルマージフレームワークであるAdaRankを提案する。
我々は,タスクベクトルの主成分が他のタスクと重大な干渉を引き起こすことを実証的に示し,タスクやレイヤ間の内在的な乱れが性能を低下させることを示した。
対照的に、AdaRankは、干渉を引き起こす特異成分を動的にプーンし、エントロピー最小化を通じてテスト時間中にランクをプーンすることを学ぶことで、各タスクベクトルに最適な量の情報を提供する。
実験の結果,AdaRankは様々なバックボーンとタスク数で常に最先端のパフォーマンスを達成し,微調整モデル間の性能ギャップを1%近く削減できることがわかった。
関連論文リスト
- Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Why Train Everything? Tint a Single Layer for Multi-task Model Merging [17.496018757317824]
モデルマージは独立して微調整されたモデルを単一のマルチタスクモデルに統合し、ジョイントトレーニングの柔軟な代替手段を提供する。
多くの既存のモデルマージ手法は、追加のタスク固有のコンポーネントを導入し、複雑さを増し、追加の修正を必要とする。
単一のレイヤだけを更新することで、モデルマージを改善する軽量かつ高効率なアプローチであるModel Tintingを提案する。
論文 参考訳(メタデータ) (2024-12-26T07:42:06Z) - Revisiting Weight Averaging for Model Merging [16.503826062785773]
重み平均化は、重み平均化そのものを中心としたタスクベクトルを暗黙的に誘導する。
これらの中心となるタスクベクトルに低ランク近似を適用することにより、マージ性能が大幅に向上する。
本研究では,8つの画像分類課題における手法の評価を行い,従来の手法よりも有意差があることを実証した。
論文 参考訳(メタデータ) (2024-12-11T06:29:20Z) - Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - ATM: Improving Model Merging by Alternating Tuning and Merging [16.12778778313037]
タスクベクトルをマルチタスク勾配にリンクすることで、タスクベクトルの有効性を動機付ける。
タスクベクトルの有効性は、最初のエポック勾配によって大きく左右される。
我々は、チューニングとマージを交互に行う反復的なプロセスにおいて、単一のステップとして、ビューングモデルマージを提案する。
論文 参考訳(メタデータ) (2024-11-05T12:42:42Z) - Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。