Fugu-MT 論文翻訳(概要): Fine-Tuning Linear Layers Only Is a Simple yet Effective Way for Task Arithmetic

論文の概要: Fine-Tuning Linear Layers Only Is a Simple yet Effective Way for Task Arithmetic

arxiv url: http://arxiv.org/abs/2407.07089v1
Date: Tue, 9 Jul 2024 17:59:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-10 16:57:59.109899
Title: Fine-Tuning Linear Layers Only Is a Simple yet Effective Way for Task Arithmetic
Title（参考訳）: 微調整された線形層はタスク算術の単純かつ効果的な方法である
Authors: Ruochen Jin, Bojian Hou, Jiancong Xiao, Weijie Su, Li Shen,
Abstract要約: 本研究では, 線形層のみを微細化することで, 重みの絡み合いと効率を同時に改善する手法を提案する。本研究により, 注目モジュール内の線形層のみを微調整することで, モデル全体が線形状態となることが明らかとなった。特に,表象モデルが重みの絡み合いを改善する上で重要な役割を担っているのに対し,分類ヘッドなどのタスク固有モデルでは重みの絡み合い性能を劣化させることができる。
参考スコア（独自算出の注目度）: 11.142414096809734
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Task arithmetic has recently emerged as a cost-effective and scalable approach to edit pre-trained models directly in weight space, by adding the fine-tuned weights of different tasks. The performance has been further improved by a linear property which is illustrated by weight disentanglement. Yet, conventional linearization methods (e.g., NTK linearization) not only double the time and training cost but also have a disadvantage on single-task performance. We propose a simple yet effective and efficient method that only fine-tunes linear layers, which improves weight disentanglement and efficiency simultaneously. Specifically, our study reveals that only fine-tuning the linear layers in the attention modules makes the whole model occur in a linear regime, significantly improving weight disentanglement. To further understand how our method improves the disentanglement of task arithmetic, we present a comprehensive study of task arithmetic by differentiating the role of representation model and task-specific model. In particular, we find that the representation model plays an important role in improving weight disentanglement whereas the task-specific models such as the classification heads can degenerate the weight disentanglement performance. Overall, our work uncovers novel insights into the fundamental mechanisms of task arithmetic and offers a more reliable and effective approach to editing pre-trained models.
Abstract（参考訳）: タスク算術は、最近、様々なタスクの微調整された重みを加えることで、事前訓練されたモデルを重み空間で直接編集するコスト効率が高くスケーラブルなアプローチとして現れた。重みの絡み合いによる線形特性によりさらに性能が向上した。しかし,従来の線形化手法(NTK線形化など)は,時間とトレーニングコストを2倍にするだけでなく,シングルタスク性能にも不利である。重みの絡み合いと効率を同時に改善する,微細な線状層のみを実現する,シンプルで効率的かつ効率的な手法を提案する。具体的には,注目モジュール内の線形層のみを微調整することで,全モデルが線形状態に陥り,重みの絡み合いが著しく向上することを明らかにした。提案手法は,タスク算術の絡み合いを改善するために,表現モデルとタスク固有モデルの役割を区別することにより,タスク算術の包括的研究を行う。特に,表象モデルが重みの絡み合いを改善する上で重要な役割を担っているのに対し,分類ヘッドなどのタスク固有モデルでは重みの絡み合い性能を劣化させることができる。全体として、我々の研究は、タスク算術の基本的なメカニズムに関する新しい洞察を明らかにし、事前学習されたモデルを編集するためのより信頼性と効果的なアプローチを提供する。

関連論文リスト

When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers [64.1656365676171]
タスク算術は、タスクベクトルの重み付き和を追加することで、事前訓練されたモデルを編集することを指す。本稿では,非関連タスクと非関連タスクのセットを同時に学習する上で,タスク追加の有効性を理論的に証明する。ドメイン外タスクの否定を実現するために,タスク演算の適切な選択を証明した。
論文参考訳（メタデータ） (2025-04-15T08:04:39Z)
Efficient Model Editing with Task-Localized Sparse Fine-tuning [14.792099973449794]
そこで本稿では,明示的な線形化を必要とせず,最小限の干渉でスパースタスクベクトルを構築できるTaLoSを提案する。事前学習されたモデルには、タスク間の勾配感度が一貫して低いパラメータのサブセットが含まれていることがわかった。実験により,TaLoSは,タスクの追加や否定において,現在の手法より優れている一方で,トレーニングと推論の効率が向上することが証明された。
論文参考訳（メタデータ） (2025-04-03T14:20:06Z)
Lifelong Reinforcement Learning with Similarity-Driven Weighting by Large Models [4.265969066588072]
学習過程を制御するために,大規模言語モデル生成動的関数を利用する新しいフレームワークSDWを提案する。 SDWの中核は、タスク類似性関数と重み計算関数という、大きなモデルによって事前に生成される2つの関数にある。 Atari と MiniHack のシーケンシャルタスクに対する実験結果から,SDW が既存の長寿命強化学習法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2025-03-17T08:36:16Z)
Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文参考訳（メタデータ） (2024-11-27T20:08:55Z)
NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前訓練されたモデルは、リソース集約的で厳しい。広く採用されているPEFT技術であるLoRA(Lo-Rank Adaptation)は、事前訓練されたモデルの重量を凍結する。 NEATは、トレーニング済みの重みを入力として取り込んだ軽量ニューラルネットワークを導入し、近似累積重み更新のための非線形変換を学習する。
論文参考訳（メタデータ） (2024-10-02T17:29:23Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文参考訳（メタデータ） (2023-10-12T15:01:43Z)
Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文参考訳（メタデータ） (2023-10-07T08:55:54Z)
Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文参考訳（メタデータ） (2023-05-22T08:39:25Z)
Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2023-04-25T21:49:09Z)
Scalable Weight Reparametrization for Efficient Transfer Learning [10.265713480189486]
効率的な転送学習は、より大きなデータセットでトレーニングされたトレーニング済みのモデルを使用して、下流タスクのためにそれを再利用する。以前の作業ではパラメータやタスク固有のモジュールが更新され、特に小さなモデルでは計算量が増加した。本稿では,事前学習したモデルの再パラメータ化の場所を決定するためのポリシネットワークの学習を提案する。
論文参考訳（メタデータ） (2023-02-26T23:19:11Z)
Editing Models with Task Arithmetic [69.97273155842966]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文参考訳（メタデータ） (2022-12-08T05:50:53Z)
Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2022-03-30T23:16:07Z)
Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-01T10:03:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。