論文の概要: Editing Models with Task Arithmetic
- arxiv url: http://arxiv.org/abs/2212.04089v2
- Date: Wed, 29 Mar 2023 16:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 18:17:18.177469
- Title: Editing Models with Task Arithmetic
- Title(参考訳): タスク演算によるモデル編集
- Authors: Gabriel Ilharco, Marco Tulio Ribeiro, Mitchell Wortsman, Suchin
Gururangan, Ludwig Schmidt, Hannaneh Hajishirzi, Ali Farhadi
- Abstract要約: 事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。
タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。
これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
- 参考スコア(独自算出の注目度): 69.97273155842966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Changing how pre-trained models behave -- e.g., improving their performance
on a downstream task or mitigating biases learned during pre-training -- is a
common practice when developing machine learning systems. In this work, we
propose a new paradigm for steering the behavior of neural networks, centered
around \textit{task vectors}. A task vector specifies a direction in the weight
space of a pre-trained model, such that movement in that direction improves
performance on the task. We build task vectors by subtracting the weights of a
pre-trained model from the weights of the same model after fine-tuning on a
task. We show that these task vectors can be modified and combined together
through arithmetic operations such as negation and addition, and the behavior
of the resulting model is steered accordingly. Negating a task vector decreases
performance on the target task, with little change in model behavior on control
tasks. Moreover, adding task vectors together can improve performance on
multiple tasks at once. Finally, when tasks are linked by an analogy
relationship of the form ``A is to B as C is to D", combining task vectors from
three of the tasks can improve performance on the fourth, even when no data
from the fourth task is used for training. Overall, our experiments with
several models, modalities and tasks show that task arithmetic is a simple,
efficient and effective way of editing models.
- Abstract(参考訳): トレーニング済みモデル – ダウンストリームタスクのパフォーマンス向上や事前トレーニング中に学んだバイアス緩和など – の振る舞いを変えることは、マシンラーニングシステムの開発において一般的なプラクティスだ。
本研究では,ニューラルネットワークの動作を制御するための新しいパラダイムを提案する。
タスクベクトルは、事前訓練されたモデルの重量空間における方向を指定し、その方向の動きがタスクの性能を向上させる。
タスクを微調整した後、事前学習したモデルの重みを同じモデルの重みから減算してタスクベクトルを構築する。
これらのタスクベクトルをネゲーションや加算などの算術演算によって修正・結合することができ、結果として得られるモデルの振る舞いがそれに応じて制御されることを示す。
タスクベクトルのネゴシエーションは、制御タスクにおけるモデル動作の変化が少なく、ターゲットタスクのパフォーマンスを低下させる。
さらに、タスクベクトルを同時に追加することで、複数のタスクのパフォーマンスが向上する。
最後に、タスクが ``A is to B is to C is to D" 形式の類似関係でリンクされると、3つのタスクのタスクベクトルを組み合わせることで、トレーニングに第4タスクのデータを使用しなくても、第4タスクのパフォーマンスを改善することができる。
全体として、いくつかのモデル、モダリティ、タスクを用いた実験は、タスク演算がモデル編集の単純で効率的かつ効果的な方法であることを示している。
関連論文リスト
- Task Weighting through Gradient Projection for Multitask Learning [5.5967570276373655]
マルチタスク学習では、タスク勾配間の衝突は、モデルのトレーニングパフォーマンスを劣化させる頻繁な問題である。
本研究では,タスク優先順位付けを同時に行うために,グラディエント・プロジェクション・アルゴリズムであるPCGradを適用する手法を提案する。
従来のタスクの重み付けとは違い、重み付け方式は、タスクが矛盾している場合にのみ適用されるが、トレーニングを妨げない場合にのみ適用される。
論文 参考訳(メタデータ) (2024-09-03T11:17:44Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。
それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。
これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T08:39:25Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Adaptive Transfer Learning on Graph Neural Networks [4.233435459239147]
グラフニューラルネットワーク(GNN)は、グラフ構造化データの強力な表現を学ぶために広く利用されている。
近年の研究では、自己教師型タスクから下流タスクへの知識伝達により、グラフ表現がさらに改善されることが示されている。
本稿では,GNN 上での移動学習パラダイムを提案する。これは,目標タスクを支援するための補助タスクとして,自己教師型タスクを効果的に活用することができる。
論文 参考訳(メタデータ) (2021-07-19T11:46:28Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。