Fugu-MT 論文翻訳(概要): Editing Models with Task Arithmetic

論文の概要: Editing Models with Task Arithmetic

arxiv url: http://arxiv.org/abs/2212.04089v2
Date: Wed, 29 Mar 2023 16:52:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-30 18:17:18.177469
Title: Editing Models with Task Arithmetic
Title（参考訳）: タスク演算によるモデル編集
Authors: Gabriel Ilharco, Marco Tulio Ribeiro, Mitchell Wortsman, Suchin Gururangan, Ludwig Schmidt, Hannaneh Hajishirzi, Ali Farhadi
Abstract要約: 事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
参考スコア（独自算出の注目度）: 69.97273155842966
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Changing how pre-trained models behave -- e.g., improving their performance on a downstream task or mitigating biases learned during pre-training -- is a common practice when developing machine learning systems. In this work, we propose a new paradigm for steering the behavior of neural networks, centered around \textit{task vectors}. A task vector specifies a direction in the weight space of a pre-trained model, such that movement in that direction improves performance on the task. We build task vectors by subtracting the weights of a pre-trained model from the weights of the same model after fine-tuning on a task. We show that these task vectors can be modified and combined together through arithmetic operations such as negation and addition, and the behavior of the resulting model is steered accordingly. Negating a task vector decreases performance on the target task, with little change in model behavior on control tasks. Moreover, adding task vectors together can improve performance on multiple tasks at once. Finally, when tasks are linked by an analogy relationship of the form ``A is to B as C is to D", combining task vectors from three of the tasks can improve performance on the fourth, even when no data from the fourth task is used for training. Overall, our experiments with several models, modalities and tasks show that task arithmetic is a simple, efficient and effective way of editing models.
Abstract（参考訳）: トレーニング済みモデル – ダウンストリームタスクのパフォーマンス向上や事前トレーニング中に学んだバイアス緩和など – の振る舞いを変えることは、マシンラーニングシステムの開発において一般的なプラクティスだ。本研究では,ニューラルネットワークの動作を制御するための新しいパラダイムを提案する。タスクベクトルは、事前訓練されたモデルの重量空間における方向を指定し、その方向の動きがタスクの性能を向上させる。タスクを微調整した後、事前学習したモデルの重みを同じモデルの重みから減算してタスクベクトルを構築する。これらのタスクベクトルをネゲーションや加算などの算術演算によって修正・結合することができ、結果として得られるモデルの振る舞いがそれに応じて制御されることを示す。タスクベクトルのネゴシエーションは、制御タスクにおけるモデル動作の変化が少なく、ターゲットタスクのパフォーマンスを低下させる。さらに、タスクベクトルを同時に追加することで、複数のタスクのパフォーマンスが向上する。最後に、タスクが ``A is to B is to C is to D" 形式の類似関係でリンクされると、3つのタスクのタスクベクトルを組み合わせることで、トレーニングに第4タスクのデータを使用しなくても、第4タスクのパフォーマンスを改善することができる。全体として、いくつかのモデル、モダリティ、タスクを用いた実験は、タスク演算がモデル編集の単純で効率的かつ効果的な方法であることを示している。

関連論文リスト

When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers [64.1656365676171]
タスク算術は、タスクベクトルの重み付き和を追加することで、事前訓練されたモデルを編集することを指す。本稿では,非関連タスクと非関連タスクのセットを同時に学習する上で,タスク追加の有効性を理論的に証明する。ドメイン外タスクの否定を実現するために,タスク演算の適切な選択を証明した。
論文参考訳（メタデータ） (2025-04-15T08:04:39Z)
Efficient Model Editing with Task-Localized Sparse Fine-tuning [14.792099973449794]
そこで本稿では,明示的な線形化を必要とせず,最小限の干渉でスパースタスクベクトルを構築できるTaLoSを提案する。事前学習されたモデルには、タスク間の勾配感度が一貫して低いパラメータのサブセットが含まれていることがわかった。実験により,TaLoSは,タスクの追加や否定において,現在の手法より優れている一方で,トレーニングと推論の効率が向上することが証明された。
論文参考訳（メタデータ） (2025-04-03T14:20:06Z)
Revisiting Weight Averaging for Model Merging [16.503826062785773]
モデルマージは、個別に調整されたモデルのパラメータを追加のトレーニングなしで組み合わせることで、マルチタスク学習者を構築することを目的としている。ウェイト平均化は、ウェイト平均化自身を中心としたタスクベクトルを暗黙的に誘導する。これらの中心となるタスクベクトルに低ランク近似を適用することにより、マージ性能が大幅に向上する。
論文参考訳（メタデータ） (2024-12-11T06:29:20Z)
Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文参考訳（メタデータ） (2024-11-27T20:08:55Z)
Task Weighting through Gradient Projection for Multitask Learning [5.5967570276373655]
マルチタスク学習では、タスク勾配間の衝突は、モデルのトレーニングパフォーマンスを劣化させる頻繁な問題である。本研究では,タスク優先順位付けを同時に行うために,グラディエント・プロジェクション・アルゴリズムであるPCGradを適用する手法を提案する。従来のタスクの重み付けとは違い、重み付け方式は、タスクが矛盾している場合にのみ適用されるが、トレーニングを妨げない場合にのみ適用される。
論文参考訳（メタデータ） (2024-09-03T11:17:44Z)
Fine-Tuning Attention Modules Only: Enhancing Weight Disentanglement in Task Arithmetic [11.142414096809734]
近年,タスク算術が注目を集めている。このアプローチは、様々なタスクの微調整された重みを統一されたモデルに組み合わせることで、事前訓練されたモデルを直接重量空間で編集する。このような統一されたモデルを個々のタスクに適用することは、他のタスクからの干渉につながる(重みの絡み合いの欠如)。
論文参考訳（メタデータ） (2024-07-09T17:59:17Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文参考訳（メタデータ） (2023-06-26T17:53:05Z)
Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文参考訳（メタデータ） (2023-05-22T08:39:25Z)
Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文参考訳（メタデータ） (2023-01-27T06:49:47Z)
Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2022-03-30T23:16:07Z)
Adaptive Transfer Learning on Graph Neural Networks [4.233435459239147]
グラフニューラルネットワーク(GNN)は、グラフ構造化データの強力な表現を学ぶために広く利用されている。近年の研究では、自己教師型タスクから下流タスクへの知識伝達により、グラフ表現がさらに改善されることが示されている。本稿では,GNN 上での移動学習パラダイムを提案する。これは,目標タスクを支援するための補助タスクとして,自己教師型タスクを効果的に活用することができる。
論文参考訳（メタデータ） (2021-07-19T11:46:28Z)
Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-17T12:30:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。