論文の概要: Tied-Lora: Enhacing parameter efficiency of LoRA with weight tying
- arxiv url: http://arxiv.org/abs/2311.09578v1
- Date: Thu, 16 Nov 2023 05:29:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 16:25:00.461857
- Title: Tied-Lora: Enhacing parameter efficiency of LoRA with weight tying
- Title(参考訳): Tied-Lora: 重み付けによるLoRAのパラメータ効率向上
- Authors: Adithya Renduchintala, Tugrul Konuk, Oleksii Kuchaiev
- Abstract要約: タイド・ロラ(Tied-LoRA)は、重み付けと選択訓練を利用してパラメータ効率をさらに向上させる単純なパラダイムである。
本研究は, トレーニング可能なパラメータの数と性能の最適なバランスを特定するために, 重み付けと組み合わせて, パラメータのトレーニング・凍結が可能な組み合わせについて検討した。
- 参考スコア(独自算出の注目度): 6.937597777322465
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose Tied-LoRA, a simple paradigm utilizes weight tying and selective
training to further increase parameter efficiency of the Low-rank adaptation
(LoRA) method. Our investigations include all feasible combinations parameter
training/freezing in conjunction with weight tying to identify the optimal
balance between performance and the number of trainable parameters. Through
experiments covering a variety of tasks and two base language models, we
provide analysis revealing trade-offs between efficiency and performance. Our
experiments uncovered a particular Tied-LoRA configuration that stands out by
demonstrating comparable performance across several tasks while employing only
13~\% percent of parameters utilized by the standard LoRA method.
- Abstract(参考訳): 低ランク適応法 (LoRA) のパラメータ効率をさらに高めるために, 重み付けと選択訓練を利用した簡単なパラダイムであるTied-LoRAを提案する。
本研究は,性能と学習可能なパラメータ数との最適なバランスを特定するために,重み付けと組み合わせてパラメータのトレーニング/フリーズを行う。
様々なタスクと2つの基本言語モデルに関する実験を通じて、効率と性能のトレードオフを明らかにする分析を提供する。
実験では,標準のLoRA法で使用されるパラメータの13~5%しか使用せず,複数のタスクに比較した性能を示すことで,特筆すべきTied-LoRA構成を明らかにした。
関連論文リスト
- MALoRA: Mixture of Asymmetric Low-Rank Adaptation for Enhanced Multi-Task Learning [29.957620178740186]
マルチタスクのシナリオでは、トレーニングの不均衡やシーソー効果といった課題が頻繁に現れます。
フレキシブルな微調整フレームワークとして非対称低ランク適応(MALoRA)の混合を提案する。
MALoRAはトレーニング可能なパラメータの数を30%から48%削減し、トレーニング速度を1.2倍にし、シングルタスクのLoRAモデルの計算効率に匹敵する。
論文 参考訳(メタデータ) (2024-10-30T07:53:52Z) - MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning [74.43869839954168]
マルチタスク学習能力を大幅に向上させながら、低ランク適応の利点を保ちながら、MTL-LoRAを提案する。
MTL-LoRAは、タスク固有の情報を識別するタスク適応パラメータを追加することでLoRAを強化する。
このアプローチにより、汎用コーパス上で事前訓練された大規模言語モデル(LLM)が、限られた数のトレーニング可能なパラメータで異なるターゲットタスクドメインに適応できる。
論文 参考訳(メタデータ) (2024-10-12T08:32:26Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - MoS: Unleashing Parameter Efficiency of Low-Rank Adaptation with Mixture of Shards [35.163843138935455]
大規模言語モデルの迅速なスケーリングには、爆発的なGPUメモリオーバーヘッドを低減するために、より軽量な微調整方法が必要である。
本研究は、純粋な共有による有害な影響を逆転させる上で、差別化が不可欠であることを示す。
本研究では,層間共有と層間共有を併用し,ほぼ費用がかからない4つの差別戦略を統合することで,Shardsの混合(MoS)を提案する。
論文 参考訳(メタデータ) (2024-10-01T07:47:03Z) - Unleashing the Power of Task-Specific Directions in Parameter Efficient Fine-tuning [65.31677646659895]
本稿では,タスク固有の方向性 (TSD) の概念に着目し,大規模モデルを事前学習状態からPEFTにおけるタスク固有の拡張へ移行させる。
本稿では,微調整過程におけるTSDの影響を最大化し,目標タスクにおけるモデル性能を向上させることを目的とした新しいアプローチであるLoRA-Dashを紹介する。
論文 参考訳(メタデータ) (2024-09-02T08:10:51Z) - ShareLoRA: Parameter Efficient and Robust Large Language Model Fine-tuning via Shared Low-Rank Adaptation [4.07532985236519]
本研究では,共有低ランク適応(ShareLoRA)を実装することにより,事前学習言語モデル(PLM)に対するPEFT(Efficient Fine Tuning)の最適化手法を提案する。
異なるレイヤにShareLoRAを戦略的にデプロイし、それを自己アテンションレイヤのクエリ、キー、バリューコンポーネントに適用することにより、トレーニングパラメータの数とメモリ使用量を大幅に削減します。
この結果から、ShareLoRAはパラメータ効率を効果的に向上し、異なる言語モデルアーキテクチャにおけるスケーラブルで高品質な性能を確保します。
論文 参考訳(メタデータ) (2024-06-16T02:52:28Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - LoRA Meets Dropout under a Unified Framework [38.5176197615878]
大規模言語モデル(LLM)は、多くのNLPアプリケーションにおいて重要な要素として現れている。
様々なドロップアウト手法は、当初は全てのパラメータを更新した完全な微調整のために設計されていたが、過剰なパラメータ冗長性に関連する過度な適合を緩和した。
我々は,これらの手法を,落下位置,構造パターン,補償基準に基づいてインスタンス化する総合的な調査のための統一的な枠組みを導入する。
論文 参考訳(メタデータ) (2024-02-25T07:09:10Z) - PRoLoRA: Partial Rotation Empowers More Parameter-Efficient LoRA [45.38491644250814]
部分回転型低ランク適応(PRoLoRA)は層内共有機構である。
PRoLoRAはその利点を保ち、ピアパラメータ共有手法の欠点を効果的に回避する。
実験によりPRoLoRAのパラメータ効率が著しく向上した。
論文 参考訳(メタデータ) (2024-02-24T13:39:05Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。