論文の概要: Fine-Tuning Attention Modules Only: Enhancing Weight Disentanglement in Task Arithmetic
- arxiv url: http://arxiv.org/abs/2407.07089v2
- Date: Wed, 29 Jan 2025 12:12:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:51:26.110138
- Title: Fine-Tuning Attention Modules Only: Enhancing Weight Disentanglement in Task Arithmetic
- Title(参考訳): タスク・アテンション・モジュールの微調整:タスク・算術におけるウェイト・ディスタングルの強化
- Authors: Ruochen Jin, Bojian Hou, Jiancong Xiao, Weijie Su, Li Shen,
- Abstract要約: 近年,タスク算術が注目を集めている。
このアプローチは、様々なタスクの微調整された重みを統一されたモデルに組み合わせることで、事前訓練されたモデルを直接重量空間で編集する。
このような統一されたモデルを個々のタスクに適用することは、他のタスクからの干渉につながる(重みの絡み合いの欠如)。
- 参考スコア(独自算出の注目度): 11.142414096809734
- License:
- Abstract: In recent years, task arithmetic has garnered increasing attention. This approach edits pre-trained models directly in weight space by combining the fine-tuned weights of various tasks into a unified model. Its efficiency and cost-effectiveness stem from its training-free combination, contrasting with traditional methods that require model training on large datasets for multiple tasks. However, applying such a unified model to individual tasks can lead to interference from other tasks (lack of weight disentanglement). To address this issue, Neural Tangent Kernel (NTK) linearization has been employed to leverage a "kernel behavior", facilitating weight disentanglement and mitigating adverse effects from unrelated tasks. Despite its benefits, NTK linearization presents drawbacks, including doubled training costs, as well as reduced performance of individual models. To tackle this problem, we propose a simple yet effective and efficient method that is to finetune the attention modules only in the Transformer. Our study reveals that the attention modules exhibit kernel behavior, and fine-tuning the attention modules only significantly improves weight disentanglement. To further understand how our method improves the weight disentanglement of task arithmetic, we present a comprehensive study of task arithmetic by differentiating the role of the representation module and task-specific module. In particular, we find that the representation module plays an important role in improving weight disentanglement whereas the task-specific modules such as the classification heads can degenerate the weight disentanglement performance. (The code is available at https://github.com/kyrie-23/task_arithmetic_tangent)
- Abstract(参考訳): 近年,タスク算術が注目を集めている。
このアプローチは、様々なタスクの微調整された重みを統一されたモデルに組み合わせることで、事前訓練されたモデルを直接重量空間で編集する。
その効率性とコスト効率は、複数のタスクのために大規模なデータセットでモデルトレーニングを必要とする従来の方法とは対照的に、トレーニング不要の組み合わせに由来する。
しかし、このような統一されたモデルを個々のタスクに適用すると、他のタスク(重みの絡み合いの欠如)からの干渉につながる可能性がある。
この問題に対処するために、ニューラル・タンジェント・カーネル(NTK)線形化(英語版)は「カーネルの挙動」を活用するために使われ、重みの絡み合いを緩和し、無関係なタスクによる悪影響を軽減する。
その利点にもかかわらず、NTK線形化は、訓練コストの倍増や個々のモデルの性能の低下など、欠点を生んでいる。
この問題に対処するため,Transformerでのみ注目モジュールを微調整する,シンプルで効率的かつ効率的な手法を提案する。
本研究は,アテンションモジュールがカーネルの挙動を示すことを明らかにし,アテンションモジュールの微調整は重みの絡み合いを著しく改善する。
提案手法は,タスク演算の重みの絡み合いを改善するために,表現モジュールとタスク固有モジュールの役割を区別することにより,タスク演算の包括的研究を行う。
特に,表象モジュールが重み乱れを改善する上で重要な役割を担っているのに対し,分類ヘッドなどのタスク固有モジュールは重み乱れ性能を劣化させることができる。
(https://github.com/kyrie-23/task_arithmetic_tangent)
関連論文リスト
- Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文 参考訳(メタデータ) (2023-10-07T08:55:54Z) - Pruning Small Pre-Trained Weights Irreversibly and Monotonically Impairs
"Difficult" Downstream Tasks in LLMs [71.56345106591789]
大型言語モデル(LLM)の重みには、かなりの冗長性が含まれていると信じられている。
本稿では,下流の難題に対処する上で必要となる重要な知識を包含する,事前訓練されたモデル重みの小さなマグニチュード重みについて述べる。
論文 参考訳(メタデータ) (2023-09-29T22:55:06Z) - Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。
それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。
これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T08:39:25Z) - Scalable Weight Reparametrization for Efficient Transfer Learning [10.265713480189486]
効率的な転送学習は、より大きなデータセットでトレーニングされたトレーニング済みのモデルを使用して、下流タスクのためにそれを再利用する。
以前の作業ではパラメータやタスク固有のモジュールが更新され、特に小さなモデルでは計算量が増加した。
本稿では,事前学習したモデルの再パラメータ化の場所を決定するためのポリシネットワークの学習を提案する。
論文 参考訳(メタデータ) (2023-02-26T23:19:11Z) - Editing Models with Task Arithmetic [69.97273155842966]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。
タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。
これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-08T05:50:53Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。