Fugu-MT 論文翻訳(概要): Fine-Tuning Attention Modules Only: Enhancing Weight Disentanglement in Task Arithmetic

論文の概要: Fine-Tuning Attention Modules Only: Enhancing Weight Disentanglement in Task Arithmetic

arxiv url: http://arxiv.org/abs/2407.07089v2
Date: Wed, 29 Jan 2025 12:12:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-30 22:32:42.346693
Title: Fine-Tuning Attention Modules Only: Enhancing Weight Disentanglement in Task Arithmetic
Title（参考訳）: タスク・アテンション・モジュールの微調整:タスク・算術におけるウェイト・ディスタングルの強化
Authors: Ruochen Jin, Bojian Hou, Jiancong Xiao, Weijie Su, Li Shen,
Abstract要約: 近年,タスク算術が注目を集めている。このアプローチは、様々なタスクの微調整された重みを統一されたモデルに組み合わせることで、事前訓練されたモデルを直接重量空間で編集する。このような統一されたモデルを個々のタスクに適用することは、他のタスクからの干渉につながる(重みの絡み合いの欠如)。
参考スコア（独自算出の注目度）: 11.142414096809734
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, task arithmetic has garnered increasing attention. This approach edits pre-trained models directly in weight space by combining the fine-tuned weights of various tasks into a unified model. Its efficiency and cost-effectiveness stem from its training-free combination, contrasting with traditional methods that require model training on large datasets for multiple tasks. However, applying such a unified model to individual tasks can lead to interference from other tasks (lack of weight disentanglement). To address this issue, Neural Tangent Kernel (NTK) linearization has been employed to leverage a "kernel behavior", facilitating weight disentanglement and mitigating adverse effects from unrelated tasks. Despite its benefits, NTK linearization presents drawbacks, including doubled training costs, as well as reduced performance of individual models. To tackle this problem, we propose a simple yet effective and efficient method that is to finetune the attention modules only in the Transformer. Our study reveals that the attention modules exhibit kernel behavior, and fine-tuning the attention modules only significantly improves weight disentanglement. To further understand how our method improves the weight disentanglement of task arithmetic, we present a comprehensive study of task arithmetic by differentiating the role of the representation module and task-specific module. In particular, we find that the representation module plays an important role in improving weight disentanglement whereas the task-specific modules such as the classification heads can degenerate the weight disentanglement performance. (The code is available at https://github.com/kyrie-23/task_arithmetic_tangent)
Abstract（参考訳）: 近年,タスク算術が注目を集めている。このアプローチは、様々なタスクの微調整された重みを統一されたモデルに組み合わせることで、事前訓練されたモデルを直接重量空間で編集する。その効率性とコスト効率は、複数のタスクのために大規模なデータセットでモデルトレーニングを必要とする従来の方法とは対照的に、トレーニング不要の組み合わせに由来する。しかし、このような統一されたモデルを個々のタスクに適用すると、他のタスク(重みの絡み合いの欠如)からの干渉につながる可能性がある。この問題に対処するために、ニューラル・タンジェント・カーネル(NTK)線形化(英語版)は「カーネルの挙動」を活用するために使われ、重みの絡み合いを緩和し、無関係なタスクによる悪影響を軽減する。その利点にもかかわらず、NTK線形化は、訓練コストの倍増や個々のモデルの性能の低下など、欠点を生んでいる。この問題に対処するため,Transformerでのみ注目モジュールを微調整する,シンプルで効率的かつ効率的な手法を提案する。本研究は,アテンションモジュールがカーネルの挙動を示すことを明らかにし,アテンションモジュールの微調整は重みの絡み合いを著しく改善する。提案手法は,タスク演算の重みの絡み合いを改善するために,表現モジュールとタスク固有モジュールの役割を区別することにより,タスク演算の包括的研究を行う。特に,表象モジュールが重み乱れを改善する上で重要な役割を担っているのに対し,分類ヘッドなどのタスク固有モジュールは重み乱れ性能を劣化させることができる。 (https://github.com/kyrie-23/task_arithmetic_tangent)

関連論文リスト

When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers [64.1656365676171]
タスク算術は、タスクベクトルの重み付き和を追加することで、事前訓練されたモデルを編集することを指す。本稿では,非関連タスクと非関連タスクのセットを同時に学習する上で,タスク追加の有効性を理論的に証明する。ドメイン外タスクの否定を実現するために,タスク演算の適切な選択を証明した。
論文参考訳（メタデータ） (2025-04-15T08:04:39Z)
Efficient Model Editing with Task-Localized Sparse Fine-tuning [14.792099973449794]
そこで本稿では,明示的な線形化を必要とせず,最小限の干渉でスパースタスクベクトルを構築できるTaLoSを提案する。事前学習されたモデルには、タスク間の勾配感度が一貫して低いパラメータのサブセットが含まれていることがわかった。実験により,TaLoSは,タスクの追加や否定において,現在の手法より優れている一方で,トレーニングと推論の効率が向上することが証明された。
論文参考訳（メタデータ） (2025-04-03T14:20:06Z)
Lifelong Reinforcement Learning with Similarity-Driven Weighting by Large Models [4.265969066588072]
学習過程を制御するために,大規模言語モデル生成動的関数を利用する新しいフレームワークSDWを提案する。 SDWの中核は、タスク類似性関数と重み計算関数という、大きなモデルによって事前に生成される2つの関数にある。 Atari と MiniHack のシーケンシャルタスクに対する実験結果から,SDW が既存の長寿命強化学習法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2025-03-17T08:36:16Z)
Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文参考訳（メタデータ） (2024-11-27T20:08:55Z)
NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前訓練されたモデルは、リソース集約的で厳しい。広く採用されているPEFT技術であるLoRA(Lo-Rank Adaptation)は、事前訓練されたモデルの重量を凍結する。 NEATは、トレーニング済みの重みを入力として取り込んだ軽量ニューラルネットワークを導入し、近似累積重み更新のための非線形変換を学習する。
論文参考訳（メタデータ） (2024-10-02T17:29:23Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文参考訳（メタデータ） (2023-10-12T15:01:43Z)
Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文参考訳（メタデータ） (2023-10-07T08:55:54Z)
Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文参考訳（メタデータ） (2023-05-22T08:39:25Z)
Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2023-04-25T21:49:09Z)
Scalable Weight Reparametrization for Efficient Transfer Learning [10.265713480189486]
効率的な転送学習は、より大きなデータセットでトレーニングされたトレーニング済みのモデルを使用して、下流タスクのためにそれを再利用する。以前の作業ではパラメータやタスク固有のモジュールが更新され、特に小さなモデルでは計算量が増加した。本稿では,事前学習したモデルの再パラメータ化の場所を決定するためのポリシネットワークの学習を提案する。
論文参考訳（メタデータ） (2023-02-26T23:19:11Z)
Editing Models with Task Arithmetic [69.97273155842966]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文参考訳（メタデータ） (2022-12-08T05:50:53Z)
Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2022-03-30T23:16:07Z)
Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-01T10:03:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。