論文の概要: Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models
- arxiv url: http://arxiv.org/abs/2305.12827v3
- Date: Tue, 21 Nov 2023 18:43:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 05:16:24.505676
- Title: Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models
- Title(参考訳): タンジェント空間におけるタスク算術:事前学習モデルの編集の改善
- Authors: Guillermo Ortiz-Jimenez, Alessandro Favero, Pascal Frossard
- Abstract要約: 重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。
それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。
これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 96.9373147383119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task arithmetic has recently emerged as a cost-effective and scalable
approach to edit pre-trained models directly in weight space: By adding the
fine-tuned weights of different tasks, the model's performance can be improved
on these tasks, while negating them leads to task forgetting. Yet, our
understanding of the effectiveness of task arithmetic and its underlying
principles remains limited. We present a comprehensive study of task arithmetic
in vision-language models and show that weight disentanglement is the crucial
factor that makes it effective. This property arises during pre-training and
manifests when distinct directions in weight space govern separate, localized
regions in function space associated with the tasks. Notably, we show that
fine-tuning models in their tangent space by linearizing them amplifies weight
disentanglement. This leads to substantial performance improvements across
multiple task arithmetic benchmarks and diverse models. Building on these
findings, we provide theoretical and empirical analyses of the neural tangent
kernel (NTK) of these models and establish a compelling link between task
arithmetic and the spatial localization of the NTK eigenfunctions. Overall, our
work uncovers novel insights into the fundamental mechanisms of task arithmetic
and offers a more reliable and effective approach to edit pre-trained models
through the NTK linearization.
- Abstract(参考訳): 異なるタスクの微調整された重み付けを追加することで、これらのタスクでモデルのパフォーマンスが向上し、それらを否定することでタスクを忘れることになる。
しかし、タスク演算の有効性とその基本原理に対する我々の理解は、まだ限られている。
本稿では,視覚言語モデルにおけるタスク算術の包括的研究を行い,重みの絡み合いが有効であることを示す。
この性質は事前訓練中に発生し、重み空間内の異なる方向がタスクに関連する関数空間内の個別の局所化された領域を支配するときに現れる。
特に, 線形化による接空間の微調整モデルが, 重みの偏角を増幅することを示す。
これにより、複数のタスク演算ベンチマークと多様なモデルでパフォーマンスが大幅に向上する。
これらの結果に基づいて,これらのモデルのニューラルネットワークカーネル(NTK)の理論的および経験的解析を行い,タスク演算とNTK固有関数の空間的局在との関係を確立する。
本研究は,タスク算術の基本メカニズムに関する新たな知見を明らかにし,NTK線形化による事前学習モデルの編集に,より信頼性と効果的なアプローチを提供する。
関連論文リスト
- Bias Mitigation in Fine-tuning Pre-trained Models for Enhanced Fairness
and Efficiency [26.86557244460215]
新しいタスクにおけるバイアスを軽減するために特別に設計された、効率的で堅牢な微調整フレームワークを導入します。
我々の経験的分析は、異なる人口集団の予測に影響を与える事前学習モデルのパラメータが異なることを示している。
我々は、人口集団間でフィッシャー情報を用いて決定された、これらの影響力のある重みの重要性を中和する伝達学習戦略を採用している。
論文 参考訳(メタデータ) (2024-03-01T16:01:28Z) - Cross-Task Linearity Emerges in the Pretraining-Finetuning Paradigm [51.01613218027083]
クロスタスク線形性(CTL)は、共通の事前訓練されたチェックポイントからモデルで観察され、異なるタスクで微調整される。
CTLは、同じ事前訓練されたチェックポイントから始まる微調整されたモデルに対して一貫して発生する。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは基本的に線形写像として機能し、パラメータ空間から特徴空間へマッピングする。
論文 参考訳(メタデータ) (2024-02-06T03:28:36Z) - Model Breadcrumbs: Scaling Multi-Task Model Merging with Sparse Masks [14.349517221831364]
目標問題に対する一般的なアプローチは、特定の目標タスクに対して、訓練済みの基礎モデルを微調整することである。
本稿では,事前学習したモデルの重み空間内で軌跡を彫り出す,軽度に定義された重みの集合からなる,新しい単純な方法,Model Breadcrumbsを紹介する。
実験では,複数のタスクをまたいだ性能を同時に向上するモデルブレッドクラブの有効性を実証した。
論文 参考訳(メタデータ) (2023-12-11T19:10:55Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear
Regression? [98.44739214880573]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Scalable Weight Reparametrization for Efficient Transfer Learning [10.265713480189486]
効率的な転送学習は、より大きなデータセットでトレーニングされたトレーニング済みのモデルを使用して、下流タスクのためにそれを再利用する。
以前の作業ではパラメータやタスク固有のモジュールが更新され、特に小さなモデルでは計算量が増加した。
本稿では,事前学習したモデルの再パラメータ化の場所を決定するためのポリシネットワークの学習を提案する。
論文 参考訳(メタデータ) (2023-02-26T23:19:11Z) - Editing Models with Task Arithmetic [69.97273155842966]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。
タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。
これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-08T05:50:53Z) - Transfer RL across Observation Feature Spaces via Model-Based
Regularization [9.660642248872973]
多くの強化学習(RL)アプリケーションでは、観察空間は人間の開発者によって指定され、物理的実現によって制限される。
そこで本研究では,提案手法を用いて,ソースタスク中の潜時空間のダイナミクスを抽出し,対象タスクに動的モデルを転送するアルゴリズムを提案する。
本アルゴリズムは,タスク間マッピングや目標タスクの事前知識を使わずに,観測空間の劇的な変化に有効である。
論文 参考訳(メタデータ) (2022-01-01T22:41:19Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。