論文の概要: LoRA Meets Dropout under a Unified Framework
- arxiv url: http://arxiv.org/abs/2403.00812v1
- Date: Sun, 25 Feb 2024 07:09:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 00:01:34.824973
- Title: LoRA Meets Dropout under a Unified Framework
- Title(参考訳): LoRAが統一フレームワークの下でドロップアウト
- Authors: Sheng Wang, Liheng Chen, Jiyue Jiang, Boyang Xue, Lingpeng Kong, Chuan
Wu
- Abstract要約: 大規模言語モデル(LLM)は、多くのNLPアプリケーションにおいて重要な要素として現れている。
様々なドロップアウト手法は、当初は全てのパラメータを更新した完全な微調整のために設計されていたが、過剰なパラメータ冗長性に関連する過度な適合を緩和した。
我々は,これらの手法を,落下位置,構造パターン,補償基準に基づいてインスタンス化する総合的な調査のための統一的な枠組みを導入する。
- 参考スコア(独自算出の注目度): 40.813879298973646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the remarkable capabilities, large language models (LLMs) have emerged
as essential elements in numerous NLP applications, while parameter-efficient
finetuning, especially LoRA, has gained popularity as a lightweight approach
for model customization. Meanwhile, various dropout methods, initially designed
for full finetuning with all the parameters updated, alleviates overfitting
associated with excessive parameter redundancy. Hence, a possible contradiction
arises from negligible trainable parameters of LoRA and the effectiveness of
previous dropout methods, which has been largely overlooked. To fill this gap,
we first confirm that parameter-efficient LoRA is also overfitting-prone. We
then revisit transformer-specific dropout methods, and establish their
equivalence and distinctions mathematically and empirically. Building upon this
comparative analysis, we introduce a unified framework for a comprehensive
investigation, which instantiates these methods based on dropping position,
structural pattern and compensation measure. Through this framework, we reveal
the new preferences and performance comparisons of them when involved with
limited trainable parameters. This framework also allows us to amalgamate the
most favorable aspects into a novel dropout method named HiddenKey. Extensive
experiments verify the remarkable superiority and sufficiency of HiddenKey
across multiple models and tasks, which highlights it as the preferred approach
for high-performance and parameter-efficient finetuning of LLMs.
- Abstract(参考訳): 注目すべき機能として、多数のNLPアプリケーションにおいて大きな言語モデル(LLM)が必須要素として現れ、パラメータ効率の高い微調整(特にLoRA)がモデルカスタマイズの軽量なアプローチとして人気を集めている。
一方、当初すべてのパラメータが更新された完全な微調整のために設計された様々なドロップアウトメソッドは、過剰なパラメータ冗長性に関連する過剰フィッティングを緩和する。
したがって、LoRAの無視可能なトレーニング可能なパラメータと、ほとんど見過ごされてきた従来のドロップアウト手法の有効性から矛盾が生じる可能性がある。
このギャップを埋めるために、パラメータ効率の高いLoRAも過度に適合していることを最初に確認する。
次に、変圧器固有のドロップアウト法を再検討し、その等価性と数学的および経験的に区別を確立する。
この比較分析に基づいて, 落下位置, 構造パターン, 補償尺度に基づいて, これらの手法をインスタンス化する包括的調査のための統一的な枠組みを提案する。
このフレームワークを通じて、制限されたトレーニング可能なパラメータに関わる場合、それらの新しい好みとパフォーマンスの比較を明らかにする。
このフレームワークは、最も好ましい側面をhiddenkeyと呼ばれる新しいドロップアウトメソッドにアマルガメートすることもできます。
複数のモデルやタスクにまたがるHiddenKeyの顕著な優位性と十分性を検証する実験により,LLMの高性能かつパラメータ効率の高い微調整手法として注目されている。
関連論文リスト
- DPPA: Pruning Method for Large Language Model to Model Merging [39.13317231533299]
本稿では、複雑な微調整モデルを統合するという課題に対処するため、DPPA(Dynamic Pruning Partition Amplification)と呼ばれる2段階の手法を提案する。
提案手法は,ドメイン固有のパラメータの20%しか保持せず,他の手法に匹敵する性能を提供する。
提案手法では, プレニング後の性能が優れており, モデルマージにおける性能が20%近く向上した。
論文 参考訳(メタデータ) (2024-03-05T09:12:49Z) - Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [74.58403497789422]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - PRoLoRA: Partial Rotation Empowers More Parameter-Efficient LoRA [47.660775783954605]
部分回転付低ランク適応(PRoLoRA)を導入する。
PRoLoRAはその利点にかかわっており、ピアパラメータ共有手法の欠点を効果的に回避している。
実験によりPRoLoRAのパラメータ効率が著しく向上した。
論文 参考訳(メタデータ) (2024-02-24T13:39:05Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - Tied-Lora: Enhacing parameter efficiency of LoRA with weight tying [6.937597777322465]
タイド・ロラ(Tied-LoRA)は、重み付けと選択訓練を利用してパラメータ効率をさらに向上させる単純なパラダイムである。
本研究は, トレーニング可能なパラメータの数と性能の最適なバランスを特定するために, 重み付けと組み合わせて, パラメータのトレーニング・凍結が可能な組み合わせについて検討した。
論文 参考訳(メタデータ) (2023-11-16T05:29:39Z) - IncreLoRA: Incremental Parameter Allocation Method for
Parameter-Efficient Fine-tuning [15.964205804768163]
IncreLoRAは、トレーニング中にトレーニング可能なパラメータを適応的に追加するインクリメンタルパラメータ割り当て手法である。
我々は,IncreLoRAの有効性を示すため,GLUEの広範な実験を行った。
論文 参考訳(メタデータ) (2023-08-23T10:08:10Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - General Framework for Self-Supervised Model Priming for
Parameter-Efficient Fine-tuning [54.47460770634613]
本稿では,パラメータ効率の高い手法の少数ショット適応とクロスドメイン一般化能力を高めるための汎用フレームワークを提案する。
本フレームワークでは,パラメータ効率向上のための自己教師型モデルを用いて,下流の諸課題に迅速に適応する。
我々は160種類のNLPタスクを含む数ショットのクロスドメインベンチマークで実験を行った。
論文 参考訳(メタデータ) (2022-12-02T08:56:53Z) - On the Effectiveness of Parameter-Efficient Fine-Tuning [79.6302606855302]
現在、多くの研究が、パラメータのごく一部のみを微調整し、異なるタスク間で共有されるパラメータのほとんどを保持することを提案している。
これらの手法は, いずれも細粒度モデルであり, 新たな理論的解析を行う。
我々の理論に根ざした空間性の有効性にもかかわらず、調整可能なパラメータをどう選ぶかという問題はまだ未解決のままである。
論文 参考訳(メタデータ) (2022-11-28T17:41:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。