論文の概要: Hadamard Adapter: An Extreme Parameter-Efficient Adapter Tuning Method for Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2407.11033v1
- Date: Thu, 4 Jul 2024 18:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 12:20:02.565014
- Title: Hadamard Adapter: An Extreme Parameter-Efficient Adapter Tuning Method for Pre-trained Language Models
- Title(参考訳): Hadamard Adapter: 事前学習型言語モデルのための極端パラメータ効率の良い適応調整法
- Authors: Yuyan Chen, Qiang Fu, Ge Fan, Lun Du, Jian-Guang Lou, Shi Han, Dongmei Zhang, Zhixu Li, Yanghua Xiao,
- Abstract要約: 事前訓練された言語モデル(PLM)は大量のパラメータを持ち、微調整は高価で時間を要することが多い。
ダウンストリームタスクにおける性能を損なうことなく、微調整時にPLMのパラメータを減らすためのパラメータ効率のアプローチを採用する必要がある。
本稿では, PLMにおける自己注意出力のみに作用する新しいアダプタを設計する。
- 参考スコア(独自算出の注目度): 108.08773541490191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years, Pre-trained Language models (PLMs) have swept into various fields of artificial intelligence and achieved great success. However, most PLMs, such as T5 and GPT3, have a huge amount of parameters, fine-tuning them is often expensive and time consuming, and storing them takes up a lot of space. Therefore, it is necessary to adopt a parameter-efficient approach to reduce parameters of PLMs in fine-tuning without compromising their performance in downstream tasks. In this paper, we design a novel adapter which only acts on self-attention outputs in PLMs. This adapter adopts element-wise linear transformation using Hadamard product, hence named as Hadamard adapter, requires the fewest parameters compared to previous parameter-efficient adapters. In addition, we also summarize some tuning patterns for Hadamard adapter shared by various downstream tasks, expecting to provide some guidance for further parameter reduction with shared adapters in future studies. The experiments conducted on the widely-used GLUE benchmark with several SOTA PLMs prove that the Hadamard adapter achieves competitive performance with only 0.033\% parameters compared with full fine-tuning, and it has the fewest parameters compared with other adapters. Moreover, we further find that there is also some redundant layers in the Hadamard adapter which can be removed to achieve more parameter efficiency with only 0.022\% parameters.
- Abstract(参考訳): 近年、プレトレーニング言語モデル(PLM)が人工知能の様々な分野に浸透し、大きな成功を収めている。
しかし、T5 や GPT3 のようなほとんどの PLM は大量のパラメータを持ち、微調整は高価で時間を要することが多く、保存には多くの時間がかかる。
したがって、下流タスクにおける性能を損なうことなく、微調整時にPLMのパラメータを減らすためのパラメータ効率のアプローチを採用する必要がある。
本稿では, PLMにおける自己注意出力のみに作用する新しいアダプタを設計する。
このアダプタは、アダマール積を用いた要素ワイド線形変換を採用しており、したがってアダマールアダプタと名付けられ、従来のパラメータ効率のよいアダプタと比較して、最も少ないパラメータを必要とする。
さらに、様々な下流タスクで共有されるアダマールアダプタのチューニングパターンについても要約し、将来の研究において、共有アダプタを用いたパラメータ削減のためのガイダンスを提供することを期待している。
いくつかのSOTA PLMを用いたGLUEベンチマークで行った実験により、アダマールアダプタは完全な微調整と比較して0.033\%のパラメータしか持たず、他のアダプタと比較して最も少ないパラメータを持つことがわかった。
さらに、Adamardアダプタには、0.022\%のパラメータしか持たないパラメータ効率を達成するために除去できる冗長な層がいくつか存在することもわかりました。
関連論文リスト
- X-PEFT: eXtremely Parameter-Efficient Fine-Tuning for Extreme
Multi-Profile Scenarios [5.814571836173169]
アダプタチューニングは、フルモデルファインチューニングに比べてパラメータ効率が向上する。
X-PEFTは、非常に小さなコンパクトなテンソルセットを新しいプロファイルのために微調整することで、与えられたアダプタを多量に活用する新しいPEFT手法である。
我々は,LMPタスクとGLUEタスクによるX-PEFTの性能評価を行い,従来のアダプタチューニングの有効性に適合するか,上回っていることを示す。
論文 参考訳(メタデータ) (2024-01-29T13:13:32Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models [75.25782573728677]
本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。
このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。
本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-04T16:31:37Z) - Tiny-Attention Adapter: Contexts Are More Important Than the Number of
Parameters [25.958600375299735]
Adapter-tuningは、トレーニング済みの言語モデルを、少数の新しいパラメータの追加とチューニングによって下流タスクに転送するパラダイムである。
本稿では, 極小アテンション, 極小アテンション・アテンション・アテンション・アテンション・アテンションをアダプタとして用いることの有効性について検討する。
私たちの小さなアテンションアダプタは、他のすべての位置にある隠された状態に直接条件付けられた各位置の隠された状態を変更することを学習します。
論文 参考訳(メタデータ) (2022-10-18T15:20:44Z) - SparseAdapter: An Easy Approach for Improving the Parameter-Efficiency
of Adapters [96.52807311742198]
我々は、ネットワークプルーニングのレンズを通して、アダプタのパラメータ効率を再検討する。
スパース比が最大80%に達すると、SparseAdapterは標準のAdapterよりも同等あるいは優れたパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2022-10-09T15:28:48Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - On the Effectiveness of Adapter-based Tuning for Pretrained Language
Model Adaptation [36.37565646597464]
プリトレーニング言語モデル(PrLM)に軽量アダプタモジュールを追加することで、アダプタベースのチューニングが機能する
新しいタスクごとにいくつかのトレーニング可能なパラメータを追加するだけで、高いパラメータ共有が可能になる。
アダプタベースのチューニングは,低リソースタスクと多言語タスクの微調整に優れることを示す。
論文 参考訳(メタデータ) (2021-06-06T16:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。