論文の概要: HUT: A More Computation Efficient Fine-Tuning Method With Hadamard Updated Transformation
- arxiv url: http://arxiv.org/abs/2409.13501v1
- Date: Fri, 20 Sep 2024 13:42:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 06:53:09.570530
- Title: HUT: A More Computation Efficient Fine-Tuning Method With Hadamard Updated Transformation
- Title(参考訳): HUT: Adamard Updated Transformationによるより効率的なファインチューニング手法
- Authors: Geyuan Zhang, Xiaofei Zhou, Chuheng Chen,
- Abstract要約: 下流タスクのための微調整済み言語モデルが、NLPで素晴らしい成果を上げている。
モデルパラメータが急速に大きくなるため、微調整された全てのパラメータは実用的ではない。
本稿では,元のパラメータから更新パラメータへの変換を直接構成する,直接更新変換(UT)パラダイムを提案する。
- 参考スコア(独自算出の注目度): 6.954348219088321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning pre-trained language models for downstream tasks has achieved impressive results in NLP. However, fine-tuning all parameters becomes impractical due to the rapidly increasing size of model parameters. To address this, Parameter Efficient Fine-Tuning (PEFT) methods update only a subset of parameters. Most PEFT methods, such as LoRA, use incremental updates, which involve adding learned weight matrix increments to the original parameters. Although effective, these methods face limitations in capturing complex parameter dynamics and do not maintain a strong correlation between the original and updated parameters. To overcome these challenges, we propose the direct Updated Transformation (UT) paradigm, which constructs a transformation directly from the original to the updated parameters. This approach ensures that the correlation between the original and updated parameters is preserved, leveraging the semantic features learned during pre-training. Building on this paradigm, we present the Hadamard Updated Transformation (HUT) method. HUT efficiently updates the original weight matrix using the Hadamard transformation with two low-rank matrices, offering a more expressive and flexible update mechanism. This allows HUT to capture richer parameter features through functional transformations, reducing computational complexity while maintaining or improving model quality. Theoretical analysis and extensive experiments on RoBERTa and GPT-2 validate the effectiveness of HUT. Results show that HUT performs on par with or better than other PEFT methods in terms of model quality, while significantly reducing computational complexity.
- Abstract(参考訳): 下流タスクのための微調整済み言語モデルが、NLPで素晴らしい成果を上げている。
しかし,モデルパラメータが急速に大きくなるため,パラメータの微調整は不可能となる。
これを解決するために、パラメータ効率の良いファインチューニング(PEFT)メソッドはパラメータのサブセットだけを更新する。
LoRAのようなほとんどのPEFTメソッドは、元のパラメータに学習された重み行列の増分を含むインクリメンタルアップデートを使用する。
有効ではあるが、これらの手法は複雑なパラメータのダイナミックスをキャプチャする際の制限に直面し、元のパラメータと更新されたパラメータの間に強い相関は保たない。
これらの課題を克服するために,元のパラメータから更新パラメータへの変換を直接構成する直接更新変換(UT)パラダイムを提案する。
このアプローチにより、元のパラメータと更新されたパラメータの相関が保存されることが保証され、事前トレーニング中に学んだ意味的特徴が活用される。
このパラダイムに基づいて,Hadamard Updated Transformation (HUT) 法を提案する。
HUTは、2つの低ランク行列でアダマール変換を用いて元の重量行列を効率的に更新し、より表現力が高く柔軟な更新機構を提供する。
これによりHUTは、関数変換によってよりリッチなパラメータ機能をキャプチャし、モデル品質を維持したり改善したりしながら、計算の複雑さを低減できる。
RoBERTaおよびGPT-2に関する理論的解析と広範な実験により、HUTの有効性が検証された。
その結果,HUTはモデル品質の観点から他のPEFT法と同等以上の性能を示し,計算複雑性を著しく低減した。
関連論文リスト
- Sparse Orthogonal Parameters Tuning for Continual Learning [34.462967722928724]
事前学習モデル(PTM)に基づく連続学習手法が近年注目されている。
本稿では,SoTU(Sparse Orthogonal Parameters TUning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-05T05:19:09Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前訓練されたモデルは、リソース集約的で厳しい。
広く採用されているPEFT技術であるLoRA(Lo-Rank Adaptation)は、事前訓練されたモデルの重量を凍結する。
NEATは、トレーニング済みの重みを入力として取り込んだ軽量ニューラルネットワークを導入し、近似累積重み更新のための非線形変換を学習する。
論文 参考訳(メタデータ) (2024-10-02T17:29:23Z) - SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Sparse Universal Transformer [64.78045820484299]
Universal Transformer (UT) はTransformerの変種であり、それらの層にまたがるパラメータを共有する。
本稿では,スパース・ミキチャー・オブ・エキスパート(SMoE)と新しいスティック・ブレーキング・ベースの動的停止機構を利用するスパース・ユニバーサル・トランスフォーマー(SUT)を提案する。
論文 参考訳(メタデータ) (2023-10-11T00:38:57Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Scalable Variational Gaussian Process Regression Networks [19.699020509495437]
GPRNのためのスケーラブルな変分推論アルゴリズムを提案する。
出力空間をテンソル化し、テンソル/マトリクス正規変分後部を導入し、後部相関を捉える。
実世界のいくつかの応用において,本手法の利点を実証する。
論文 参考訳(メタデータ) (2020-03-25T16:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。