論文の概要: On Task Vectors and Gradients
- arxiv url: http://arxiv.org/abs/2508.16082v2
- Date: Mon, 25 Aug 2025 22:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 13:17:04.041298
- Title: On Task Vectors and Gradients
- Title(参考訳): タスクベクトルと勾配について
- Authors: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Giuseppe Alessio D'Inverno, Fabrizio Silvestri, Emanuele Rodolà,
- Abstract要約: タスクベクトルとタスク損失の勾配との接続を確立することにより、タスク演算の厳密な理論的基礎を提供する。
標準勾配勾配下では,1つの微調整のエポックから生成されたタスクベクトルは,学習速度によってスケールされた損失の負の勾配と正確に等価であることを示す。
7つの視覚ベンチマークによる経験的分析は、我々の理論を裏付け、最初のエポック勾配がノルムと方向の両方において微調整軌道を支配していることを示す。
- 参考スコア(独自算出の注目度): 24.021393654093103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.
- Abstract(参考訳): タスク演算は、モデルマージのための単純だが強力なテクニックとして登場し、複数の微調整されたモデルを1つに組み合わせることを可能にする。
実証的な成功にもかかわらず、なぜ、いつ機能するのかという明確な理論的な説明が欠けている。
本稿では,タスクベクトルとタスク損失の勾配との接続を確立することによって,タスク演算の厳密な理論的基礎を提供する。
標準勾配勾配下では,1つの微調整のエポックから生成されたタスクベクトルは,学習速度によってスケールされた損失の負の勾配と正確に等価であることを示す。
実用的マルチエポック設定では、この同値性は、フィードフォワードネットワークに明示的に束縛された2階誤差項でほぼ成り立つことを証明している。
7つの視覚ベンチマークによる経験的分析は、我々の理論を裏付け、最初のエポック勾配がノルムと方向の両方において微調整軌道を支配していることを示す。
重要な意味は、単一のエポックにのみ微調整されたマージモデルが、完全に収束したモデルのマージに匹敵するパフォーマンスをもたらすことである。
これらの知見は、タスク算術を近似マルチタスク学習の形式として再編成し、その効果の明確な根拠を与え、モデルマージにおける早期訓練力学の重要役割を強調した。
関連論文リスト
- When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers [64.1656365676171]
タスク算術は、タスクベクトルの重み付き和を追加することで、事前訓練されたモデルを編集することを指す。
本稿では,非関連タスクと非関連タスクのセットを同時に学習する上で,タスク追加の有効性を理論的に証明する。
ドメイン外タスクの否定を実現するために,タスク演算の適切な選択を証明した。
論文 参考訳(メタデータ) (2025-04-15T08:04:39Z) - ATM: Improving Model Merging by Alternating Tuning and Merging [16.12778778313037]
タスクベクトルの理論的モチベーションは、単一エポックな全バッチ勾配勾配下では、それらはマルチタスクと同値であることが強調される。
この洞察は、モデルマージを、チューニングとマージを交互に行う反復的な手順の1つのステップとして再解釈することにつながります。
本稿では,(1)データ共有が制限されたシナリオにおけるマルチタスク学習の代替として,(2)小さな検証セットを用いて既存のモデルマージ手法を改善するための軽量化ステップとして,ATMの2つの応用を提案する。
論文 参考訳(メタデータ) (2024-11-05T12:42:42Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。