論文の概要: LoRA Meets Dropout under a Unified Framework
- arxiv url: http://arxiv.org/abs/2403.00812v1
- Date: Sun, 25 Feb 2024 07:09:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 00:01:34.824973
- Title: LoRA Meets Dropout under a Unified Framework
- Title(参考訳): LoRAが統一フレームワークの下でドロップアウト
- Authors: Sheng Wang, Liheng Chen, Jiyue Jiang, Boyang Xue, Lingpeng Kong, Chuan
Wu
- Abstract要約: 大規模言語モデル(LLM)は、多くのNLPアプリケーションにおいて重要な要素として現れている。
様々なドロップアウト手法は、当初は全てのパラメータを更新した完全な微調整のために設計されていたが、過剰なパラメータ冗長性に関連する過度な適合を緩和した。
我々は,これらの手法を,落下位置,構造パターン,補償基準に基づいてインスタンス化する総合的な調査のための統一的な枠組みを導入する。
- 参考スコア(独自算出の注目度): 40.813879298973646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the remarkable capabilities, large language models (LLMs) have emerged
as essential elements in numerous NLP applications, while parameter-efficient
finetuning, especially LoRA, has gained popularity as a lightweight approach
for model customization. Meanwhile, various dropout methods, initially designed
for full finetuning with all the parameters updated, alleviates overfitting
associated with excessive parameter redundancy. Hence, a possible contradiction
arises from negligible trainable parameters of LoRA and the effectiveness of
previous dropout methods, which has been largely overlooked. To fill this gap,
we first confirm that parameter-efficient LoRA is also overfitting-prone. We
then revisit transformer-specific dropout methods, and establish their
equivalence and distinctions mathematically and empirically. Building upon this
comparative analysis, we introduce a unified framework for a comprehensive
investigation, which instantiates these methods based on dropping position,
structural pattern and compensation measure. Through this framework, we reveal
the new preferences and performance comparisons of them when involved with
limited trainable parameters. This framework also allows us to amalgamate the
most favorable aspects into a novel dropout method named HiddenKey. Extensive
experiments verify the remarkable superiority and sufficiency of HiddenKey
across multiple models and tasks, which highlights it as the preferred approach
for high-performance and parameter-efficient finetuning of LLMs.
- Abstract(参考訳): 注目すべき機能として、多数のNLPアプリケーションにおいて大きな言語モデル(LLM)が必須要素として現れ、パラメータ効率の高い微調整(特にLoRA)がモデルカスタマイズの軽量なアプローチとして人気を集めている。
一方、当初すべてのパラメータが更新された完全な微調整のために設計された様々なドロップアウトメソッドは、過剰なパラメータ冗長性に関連する過剰フィッティングを緩和する。
したがって、LoRAの無視可能なトレーニング可能なパラメータと、ほとんど見過ごされてきた従来のドロップアウト手法の有効性から矛盾が生じる可能性がある。
このギャップを埋めるために、パラメータ効率の高いLoRAも過度に適合していることを最初に確認する。
次に、変圧器固有のドロップアウト法を再検討し、その等価性と数学的および経験的に区別を確立する。
この比較分析に基づいて, 落下位置, 構造パターン, 補償尺度に基づいて, これらの手法をインスタンス化する包括的調査のための統一的な枠組みを提案する。
このフレームワークを通じて、制限されたトレーニング可能なパラメータに関わる場合、それらの新しい好みとパフォーマンスの比較を明らかにする。
このフレームワークは、最も好ましい側面をhiddenkeyと呼ばれる新しいドロップアウトメソッドにアマルガメートすることもできます。
複数のモデルやタスクにまたがるHiddenKeyの顕著な優位性と十分性を検証する実験により,LLMの高性能かつパラメータ効率の高い微調整手法として注目されている。
関連論文リスト
- Mitigating Parameter Degeneracy using Joint Conditional Diffusion Model for WECC Composite Load Model in Power Systems [2.7212274374272543]
連立条件拡散モデルに基づく逆問題解法(JCDI)を開発した。
JCDIは、パラメータの一般化性を改善するために、マルチイベント観測を同時に入力するジョイントコンディショニングアーキテクチャを組み込んでいる。
WECC CLMのシミュレーション研究により、提案したJCDIは縮退パラメータの不確かさを効果的に低減することを示した。
論文 参考訳(メタデータ) (2024-11-15T18:53:08Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - MoS: Unleashing Parameter Efficiency of Low-Rank Adaptation with Mixture of Shards [35.163843138935455]
大規模言語モデルの迅速なスケーリングには、爆発的なGPUメモリオーバーヘッドを低減するために、より軽量な微調整方法が必要である。
本研究は、純粋な共有による有害な影響を逆転させる上で、差別化が不可欠であることを示す。
本研究では,層間共有と層間共有を併用し,ほぼ費用がかからない4つの差別戦略を統合することで,Shardsの混合(MoS)を提案する。
論文 参考訳(メタデータ) (2024-10-01T07:47:03Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Activated Parameter Locating via Causal Intervention for Model Merging [26.98015572633289]
モデルマージは複数のモデルを1つのモデルに組み合わせ、追加のトレーニングを必要とせずに、説得力のある一般化を実現する。
既存のモデルでは、デルタパラメータの一部を落として、パフォーマンスを維持しながらコンフリクトを緩和できることが示されている。
本稿では、因果的介入を利用して重要度を推定し、より正確なパラメータのドロップとコンフリクトの軽減を可能にするアクティブ・ロケーティング(APL)手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T14:00:00Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - Tied-Lora: Enhancing parameter efficiency of LoRA with weight tying [6.172790376076545]
低ランク適応(LoRA)のパラメータ効率を高めるために、ウェイトタイリングと選択的トレーニングを活用する新しいパラダイムであるTied-LoRAを導入する。
本稿では,パラメータトレーニングと凍結,およびウェイトタイリングを併用して,パラメータの最適トレードオフとトレーニング可能なパラメータの数を推定する。
論文 参考訳(メタデータ) (2023-11-16T05:29:39Z) - IncreLoRA: Incremental Parameter Allocation Method for
Parameter-Efficient Fine-tuning [15.964205804768163]
IncreLoRAは、トレーニング中にトレーニング可能なパラメータを適応的に追加するインクリメンタルパラメータ割り当て手法である。
我々は,IncreLoRAの有効性を示すため,GLUEの広範な実験を行った。
論文 参考訳(メタデータ) (2023-08-23T10:08:10Z) - On the Effectiveness of Parameter-Efficient Fine-Tuning [79.6302606855302]
現在、多くの研究が、パラメータのごく一部のみを微調整し、異なるタスク間で共有されるパラメータのほとんどを保持することを提案している。
これらの手法は, いずれも細粒度モデルであり, 新たな理論的解析を行う。
我々の理論に根ざした空間性の有効性にもかかわらず、調整可能なパラメータをどう選ぶかという問題はまだ未解決のままである。
論文 参考訳(メタデータ) (2022-11-28T17:41:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。