論文の概要: Update Your Transformer to the Latest Release: Re-Basin of Task Vectors
- arxiv url: http://arxiv.org/abs/2505.22697v1
- Date: Wed, 28 May 2025 13:55:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.446096
- Title: Update Your Transformer to the Latest Release: Re-Basin of Task Vectors
- Title(参考訳): 最新のリリースにトランスフォーマーをアップデート:タスクベクトルの再ベース
- Authors: Filippo Rinaldi, Giacomo Capitani, Lorenzo Bonicelli, Donato Crisostomi, Federico Bolelli, Elisa Ficarra, Emanuele Rodolà, Simone Calderara, Angelo Porrello,
- Abstract要約: ファウンデーションモデルは、微調整によって開発された多数の特殊モデルのバックボーンとして機能する。
基礎となる事前訓練されたモデルを更新または再訓練すると、微調整されたモデルは時代遅れになる。
モデルの新しいリリースに微調整を転送することは可能ですか?
本研究では,データフリーで再学習することなく,新たなチェックポイントに微調整を移す方法について検討する。
- 参考スコア(独自算出の注目度): 27.63078324151366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models serve as the backbone for numerous specialized models developed through fine-tuning. However, when the underlying pretrained model is updated or retrained (e.g., on larger and more curated datasets), the fine-tuned model becomes obsolete, losing its utility and requiring retraining. This raises the question: is it possible to transfer fine-tuning to a new release of the model? In this work, we investigate how to transfer fine-tuning to a new checkpoint without having to re-train, in a data-free manner. To do so, we draw principles from model re-basin and provide a recipe based on weight permutations to re-base the modifications made to the original base model, often called task vector. In particular, our approach tailors model re-basin for Transformer models, taking into account the challenges of residual connections and multi-head attention layers. Specifically, we propose a two-level method rooted in spectral theory, initially permuting the attention heads and subsequently adjusting parameters within select pairs of heads. Through extensive experiments on visual and textual tasks, we achieve the seamless transfer of fine-tuned knowledge to new pre-trained backbones without relying on a single training step or datapoint. Code is available at https://github.com/aimagelab/TransFusion.
- Abstract(参考訳): ファウンデーションモデルは、微調整によって開発された多数の特殊モデルのバックボーンとして機能する。
しかし、基礎となる事前訓練モデルが更新または再トレーニングされた場合(例えば、大規模でキュレートされたデータセットでは)、細調整されたモデルは時代遅れになり、実用性を失い、再トレーニングが必要になる。
モデルの新しいリリースに微調整を転送することは可能ですか?
本研究では,データフリーで再学習することなく,新たなチェックポイントに微調整を移す方法について検討する。
そのために、モデルのリベースから原則を描き、ウェイト順応に基づくレシピを提供し、元のベースモデル(しばしばタスクベクトルと呼ばれる)に修正を加える。
特に,トランスフォーマーモデルのモデル再ベースをモデル化し,残差接続とマルチヘッドアテンションレイヤの課題を考慮に入れた。
具体的には,スペクトル理論に根ざした2段階の手法を提案する。
視覚的およびテキスト的タスクに関する広範な実験を通じて、単一のトレーニングステップやデータポイントに頼ることなく、微調整された知識を新しいトレーニング済みのバックボーンにシームレスに転送する。
コードはhttps://github.com/aimagelab/TransFusion.comで入手できる。
関連論文リスト
- Weight subcloning: direct initialization of transformers using larger
pretrained ones [42.056148990349094]
本稿では,事前学習されたモデルの知識をより小さな変種に伝達する手法を提案する。
ウェイト・サブクロニングは、より大きな事前訓練モデルからウェイトを初期化することにより、スケールダウン・トランスフォーマーのトレーニングを高速化する。
我々は、次のトークン予測のために設計された画像分類と言語モデルにおいて、視覚変換器の4倍高速なトレーニングを実現する。
論文 参考訳(メタデータ) (2023-12-14T19:08:56Z) - Initializing Models with Larger Ones [76.41561758293055]
事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。
実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-11-30T18:58:26Z) - MixBCT: Towards Self-Adapting Backward-Compatible Training [66.52766344751635]
そこで本研究では,単純かつ高効率な後方互換性学習法であるMixBCTを提案する。
大規模顔認識データセットMS1Mv3とIJB-Cについて実験を行った。
論文 参考訳(メタデータ) (2023-08-14T05:55:38Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - Forward Compatible Training for Representation Learning [53.300192863727226]
後方互換トレーニング(BCT)は、新しいモデルのトレーニングを変更して、その表現を古いモデルのトレーニングと互換性を持たせる。
BCTは新しいモデルの性能を著しく損なう可能性がある。
本研究では,表現学習のための新しい学習パラダイムである,前方互換学習(FCT)を提案する。
論文 参考訳(メタデータ) (2021-12-06T06:18:54Z) - Bridging Pre-trained Models and Downstream Tasks for Source Code
Understanding [13.65914588243695]
本稿では,事前学習されたモデルとコード関連タスクをブリッジする手法を提案する。
我々は、下流データの多様性を豊かにする意味保存変換を利用する。
本稿では,既存の事前学習モデルを微調整するために,変換されたデータを手軽に整理するためのカリキュラム学習を紹介する。
論文 参考訳(メタデータ) (2021-12-04T07:21:28Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z) - Neural Network Retraining for Model Serving [32.857847595096025]
我々は、推論における新しいデータの継続的な流れに対応するために、ニューラルネットワークモデルの漸進的(再)トレーニングを提案する。
破滅的な再トレーニングと効率的な再トレーニングの2つの課題に対処する。
論文 参考訳(メタデータ) (2020-04-29T13:52:28Z) - Renofeation: A Simple Transfer Learning Method for Improved Adversarial
Robustness [26.73248223512572]
最近の敵攻撃は、エンド・ツー・エンドの微調整を通じてトランスファーラーニングで訓練されたモデルを欺くことができる。
これにより、多くの産業アプリケーションに対するセキュリティ上の懸念が高まる。
本稿では,新しい伝達学習法であるノイズ特性蒸留を提案する。
論文 参考訳(メタデータ) (2020-02-07T20:07:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。