論文の概要: Fine-Tuning Linear Layers Only Is a Simple yet Effective Way for Task Arithmetic
- arxiv url: http://arxiv.org/abs/2407.07089v1
- Date: Tue, 9 Jul 2024 17:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 16:57:59.109899
- Title: Fine-Tuning Linear Layers Only Is a Simple yet Effective Way for Task Arithmetic
- Title(参考訳): 微調整された線形層はタスク算術の単純かつ効果的な方法である
- Authors: Ruochen Jin, Bojian Hou, Jiancong Xiao, Weijie Su, Li Shen,
- Abstract要約: 本研究では, 線形層のみを微細化することで, 重みの絡み合いと効率を同時に改善する手法を提案する。
本研究により, 注目モジュール内の線形層のみを微調整することで, モデル全体が線形状態となることが明らかとなった。
特に,表象モデルが重みの絡み合いを改善する上で重要な役割を担っているのに対し,分類ヘッドなどのタスク固有モデルでは重みの絡み合い性能を劣化させることができる。
- 参考スコア(独自算出の注目度): 11.142414096809734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task arithmetic has recently emerged as a cost-effective and scalable approach to edit pre-trained models directly in weight space, by adding the fine-tuned weights of different tasks. The performance has been further improved by a linear property which is illustrated by weight disentanglement. Yet, conventional linearization methods (e.g., NTK linearization) not only double the time and training cost but also have a disadvantage on single-task performance. We propose a simple yet effective and efficient method that only fine-tunes linear layers, which improves weight disentanglement and efficiency simultaneously. Specifically, our study reveals that only fine-tuning the linear layers in the attention modules makes the whole model occur in a linear regime, significantly improving weight disentanglement. To further understand how our method improves the disentanglement of task arithmetic, we present a comprehensive study of task arithmetic by differentiating the role of representation model and task-specific model. In particular, we find that the representation model plays an important role in improving weight disentanglement whereas the task-specific models such as the classification heads can degenerate the weight disentanglement performance. Overall, our work uncovers novel insights into the fundamental mechanisms of task arithmetic and offers a more reliable and effective approach to editing pre-trained models.
- Abstract(参考訳): タスク算術は、最近、様々なタスクの微調整された重みを加えることで、事前訓練されたモデルを重み空間で直接編集するコスト効率が高くスケーラブルなアプローチとして現れた。
重みの絡み合いによる線形特性によりさらに性能が向上した。
しかし,従来の線形化手法(NTK線形化など)は,時間とトレーニングコストを2倍にするだけでなく,シングルタスク性能にも不利である。
重みの絡み合いと効率を同時に改善する,微細な線状層のみを実現する,シンプルで効率的かつ効率的な手法を提案する。
具体的には,注目モジュール内の線形層のみを微調整することで,全モデルが線形状態に陥り,重みの絡み合いが著しく向上することを明らかにした。
提案手法は,タスク算術の絡み合いを改善するために,表現モデルとタスク固有モデルの役割を区別することにより,タスク算術の包括的研究を行う。
特に,表象モデルが重みの絡み合いを改善する上で重要な役割を担っているのに対し,分類ヘッドなどのタスク固有モデルでは重みの絡み合い性能を劣化させることができる。
全体として、我々の研究は、タスク算術の基本的なメカニズムに関する新しい洞察を明らかにし、事前学習されたモデルを編集するためのより信頼性と効果的なアプローチを提供する。
関連論文リスト
- Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文 参考訳(メタデータ) (2023-10-07T08:55:54Z) - Pruning Small Pre-Trained Weights Irreversibly and Monotonically Impairs
"Difficult" Downstream Tasks in LLMs [71.56345106591789]
大型言語モデル(LLM)の重みには、かなりの冗長性が含まれていると信じられている。
本稿では,下流の難題に対処する上で必要となる重要な知識を包含する,事前訓練されたモデル重みの小さなマグニチュード重みについて述べる。
論文 参考訳(メタデータ) (2023-09-29T22:55:06Z) - Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。
それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。
これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T08:39:25Z) - Scalable Weight Reparametrization for Efficient Transfer Learning [10.265713480189486]
効率的な転送学習は、より大きなデータセットでトレーニングされたトレーニング済みのモデルを使用して、下流タスクのためにそれを再利用する。
以前の作業ではパラメータやタスク固有のモジュールが更新され、特に小さなモデルでは計算量が増加した。
本稿では,事前学習したモデルの再パラメータ化の場所を決定するためのポリシネットワークの学習を提案する。
論文 参考訳(メタデータ) (2023-02-26T23:19:11Z) - Editing Models with Task Arithmetic [69.97273155842966]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。
タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。
これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-08T05:50:53Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。