論文の概要: Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models
- arxiv url: http://arxiv.org/abs/2305.12827v2
- Date: Tue, 30 May 2023 15:05:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 00:21:04.221209
- Title: Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models
- Title(参考訳): タンジェント空間におけるタスク算術:事前学習モデルの編集の改善
- Authors: Guillermo Ortiz-Jimenez, Alessandro Favero, Pascal Frossard
- Abstract要約: 重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。
それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。
これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 113.89725811707545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task arithmetic has recently emerged as a cost-effective and scalable
approach to edit pre-trained models directly in weight space: By adding the
fine-tuned weights of different tasks, the model's performance can be improved
on these tasks, while negating them leads to task forgetting. Yet, our
understanding of the effectiveness of task arithmetic and its underlying
principles remains limited. We present a comprehensive study of task arithmetic
in vision-language models and show that weight disentanglement is the crucial
factor that makes it effective. This property arises during pre-training and
manifests when distinct directions in weight space govern separate, localized
regions in function space associated with the tasks. Notably, we show that
fine-tuning models in their tangent space by linearizing them amplifies weight
disentanglement. This leads to substantial performance improvements across
multiple task arithmetic benchmarks and diverse models. Building on these
findings, we provide theoretical and empirical analyses of the neural tangent
kernel (NTK) of these models and establish a compelling link between task
arithmetic and the spatial localization of the NTK eigenfunctions. Overall, our
work uncovers novel insights into the fundamental mechanisms of task arithmetic
and offers a more reliable and effective approach to edit pre-trained models
through the NTK linearization.
- Abstract(参考訳): 異なるタスクの微調整された重み付けを追加することで、これらのタスクでモデルのパフォーマンスが向上し、それらを否定することでタスクを忘れることになる。
しかし、タスク演算の有効性とその基本原理に対する我々の理解は、まだ限られている。
本稿では,視覚言語モデルにおけるタスク算術の包括的研究を行い,重みの絡み合いが有効であることを示す。
この性質は事前訓練中に発生し、重み空間内の異なる方向がタスクに関連する関数空間内の個別の局所化された領域を支配するときに現れる。
特に, 線形化による接空間の微調整モデルが, 重みの偏角を増幅することを示す。
これにより、複数のタスク演算ベンチマークと多様なモデルでパフォーマンスが大幅に向上する。
これらの結果に基づいて,これらのモデルのニューラルネットワークカーネル(NTK)の理論的および経験的解析を行い,タスク演算とNTK固有関数の空間的局在との関係を確立する。
本研究は,タスク算術の基本メカニズムに関する新たな知見を明らかにし,NTK線形化による事前学習モデルの編集に,より信頼性と効果的なアプローチを提供する。
関連論文リスト
- Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Fine-Tuning Linear Layers Only Is a Simple yet Effective Way for Task Arithmetic [11.142414096809734]
本研究では, 線形層のみを微細化することで, 重みの絡み合いと効率を同時に改善する手法を提案する。
本研究により, 注目モジュール内の線形層のみを微調整することで, モデル全体が線形状態となることが明らかとなった。
特に,表象モデルが重みの絡み合いを改善する上で重要な役割を担っているのに対し,分類ヘッドなどのタスク固有モデルでは重みの絡み合い性能を劣化させることができる。
論文 参考訳(メタデータ) (2024-07-09T17:59:17Z) - Model Breadcrumbs: Scaling Multi-Task Model Merging with Sparse Masks [12.146530928616386]
目標問題に対する一般的なアプローチは、特定の目標タスクに対して、訓練済みの基礎モデルを微調整することである。
この研究は、補助的なタスクのスペクトルから導かれた同じ基礎モデルの複数の微調整をマージする問題に焦点を当てる。
事前学習したモデルの重み空間内でモデル適応を誘導する疎定義の重み集合からなる,新しい簡易な方法であるモデルブレッドクラブを導入する。
論文 参考訳(メタデータ) (2023-12-11T19:10:55Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Scalable Weight Reparametrization for Efficient Transfer Learning [10.265713480189486]
効率的な転送学習は、より大きなデータセットでトレーニングされたトレーニング済みのモデルを使用して、下流タスクのためにそれを再利用する。
以前の作業ではパラメータやタスク固有のモジュールが更新され、特に小さなモデルでは計算量が増加した。
本稿では,事前学習したモデルの再パラメータ化の場所を決定するためのポリシネットワークの学習を提案する。
論文 参考訳(メタデータ) (2023-02-26T23:19:11Z) - Editing Models with Task Arithmetic [69.97273155842966]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。
タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。
これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-08T05:50:53Z) - Transfer RL across Observation Feature Spaces via Model-Based
Regularization [9.660642248872973]
多くの強化学習(RL)アプリケーションでは、観察空間は人間の開発者によって指定され、物理的実現によって制限される。
そこで本研究では,提案手法を用いて,ソースタスク中の潜時空間のダイナミクスを抽出し,対象タスクに動的モデルを転送するアルゴリズムを提案する。
本アルゴリズムは,タスク間マッピングや目標タスクの事前知識を使わずに,観測空間の劇的な変化に有効である。
論文 参考訳(メタデータ) (2022-01-01T22:41:19Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。