論文の概要: Gradient-Sign Masking for Task Vector Transport Across Pre-Trained Models
- arxiv url: http://arxiv.org/abs/2510.09658v2
- Date: Thu, 16 Oct 2025 16:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 14:17:28.08065
- Title: Gradient-Sign Masking for Task Vector Transport Across Pre-Trained Models
- Title(参考訳): 事前学習モデル間のタスクベクトル輸送のためのグラディエントサインマスキング
- Authors: Filippo Rinaldi, Aniello Panariello, Giacomo Salici, Fengyuan Liu, Marco Ciccone, Angelo Porrello, Simone Calderara,
- Abstract要約: 転送を成功させる鍵は、新しいモデルの勾配の符号構造にあることを示す。
理想的な勾配符号構造を近似する新しい手法であるGradFixを提案する。
視覚と言語ベンチマークにおいて大きなパフォーマンス向上を示す。
- 参考スコア(独自算出の注目度): 25.83401080149413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When a new release of a foundation model is published, practitioners typically need to repeat full fine-tuning, even if the same task has already been solved in the previous version. A promising alternative is to reuse the parameter changes (i.e., task vectors) that capture how a model adapts to a specific task. However, they often fail to transfer across different pre-trained models due to their misaligned parameter space. In this work, we show that the key to successful transfer lies in the sign structure of the gradients of the new model. Based on this insight, we propose GradFix, a novel method that approximates the ideal gradient sign structure and leverages it to transfer knowledge using only a handful of labeled samples. Notably, this requires no additional fine-tuning: the adaptation is achieved by computing a few gradients at the target model and masking the source task vector accordingly. This yields an update that is locally aligned with the target loss landscape, effectively rebasing the task vector onto the new pre-training. We provide a theoretical guarantee that our method ensures first-order descent. Empirically, we demonstrate significant performance gains on vision and language benchmarks, consistently outperforming naive task vector addition and few-shot fine-tuning.
- Abstract(参考訳): ファンデーションモデルの新たなリリースが公開された場合、一般的に実践者は、たとえ前バージョンで同じタスクが既に解決されているとしても、完全な微調整を繰り返す必要がある。
有望な代替手段は、モデルが特定のタスクにどのように適応するかをキャプチャするパラメータの変更(タスクベクトル)を再利用することである。
しかし、不整合パラメータ空間のため、しばしば異なる事前訓練されたモデル間での転送に失敗する。
本研究は,新しいモデルの勾配の符号構造に伝達を成功させる鍵が存在することを示す。
この知見に基づいて,グラッドフィクス(GradFix)を提案する。グラッドフィクス(GradFix)は理想的な勾配符号構造を近似し,少数のラベル付きサンプルを用いて知識を伝達する手法である。
適応は、ターゲットモデルでのいくつかの勾配を計算し、それに応じてソースタスクベクトルをマスキングすることで達成される。
これにより、ターゲットのロスランドスケープとローカルに一致した更新が得られ、タスクベクトルを新しい事前トレーニングに効果的にリベースする。
我々は,この手法が一階降下を保証することを理論的に保証する。
経験的には、視覚と言語ベンチマークにおいて大きなパフォーマンス向上を示し、単純タスクベクターの追加と数ショットの微調整を一貫して上回っている。
関連論文リスト
- Update Your Transformer to the Latest Release: Re-Basin of Task Vectors [27.63078324151366]
ファウンデーションモデルは、微調整によって開発された多数の特殊モデルのバックボーンとして機能する。
基礎となる事前訓練されたモデルを更新または再訓練すると、微調整されたモデルは時代遅れになる。
モデルの新しいリリースに微調整を転送することは可能ですか?
本研究では,データフリーで再学習することなく,新たなチェックポイントに微調整を移す方法について検討する。
論文 参考訳(メタデータ) (2025-05-28T13:55:12Z) - Cross-Model Transfer of Task Vectors via Few-Shot Orthogonal Alignment [5.2980803808373516]
タスク演算は、タスク固有の変更をパラメータ空間内のベクトルとして表現することで、効率的なモデル編集を可能にする。
この仮定は、モデルが異なるデータセットで独立して事前トレーニングされるクロスモデル転送設定に適用性を制限する。
本稿では,タスクベクトルを異なる事前学習対象モデルのパラメータ空間にアライメントする,少数ショットアライメントに基づく手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T14:24:06Z) - Pre-Trained Model Recommendation for Downstream Fine-tuning [22.343011779348682]
モデル選択は、市販の事前訓練されたモデルをランク付けし、新しいターゲットタスクに最も適したモデルを選択することを目的としている。
既存のモデル選択テクニックはスコープ内で制約されることが多く、モデルとタスク間の微妙な関係を見落としてしまう傾向があります。
我々は,多種多様な大規模モデルリポジトリを探索する実用的フレームワーク textbfFennec を提案する。
論文 参考訳(メタデータ) (2024-03-11T02:24:32Z) - Understanding the Transferability of Representations via Task-Relatedness [8.425690424016986]
本稿では,事前学習したモデルの下流タスクへの表現の伝達可能性について,その参照タスクとの関連性の観点から分析する。
最先端の事前学習モデルを用いた実験は、様々な視覚や言語タスクにおける伝達可能性の説明におけるタスク関連性の有効性を示す。
論文 参考訳(メタデータ) (2023-07-03T08:06:22Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。