論文の概要: OP-LoRA: The Blessing of Dimensionality
- arxiv url: http://arxiv.org/abs/2412.10362v1
- Date: Fri, 13 Dec 2024 18:55:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:43.555938
- Title: OP-LoRA: The Blessing of Dimensionality
- Title(参考訳): OP-LoRA: 次元の祝福
- Authors: Piotr Teterwak, Kate Saenko, Bryan A. Plummer, Ser-Nam Lim,
- Abstract要約: 低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。
しばしば最適化の課題を提起するが、収束性は低い。
推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。
視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
- 参考スコア(独自算出の注目度): 93.08208871549557
- License:
- Abstract: Low-rank adapters enable fine-tuning of large models with only a small number of parameters, thus reducing storage costs and minimizing the risk of catastrophic forgetting. However, they often pose optimization challenges, with poor convergence. To overcome these challenges, we introduce an over-parameterized approach that accelerates training without increasing inference costs. This method reparameterizes low-rank adaptation by employing a separate MLP and learned embedding for each layer. The learned embedding is input to the MLP, which generates the adapter parameters. Such overparamaterization has been shown to implicitly function as an adaptive learning rate and momentum, accelerating optimization. At inference time, the MLP can be discarded, leaving behind a standard low-rank adapter. To study the effect of MLP overparameterization on a small yet difficult proxy task, we implement it for matrix factorization, and find it achieves faster convergence and lower final loss. Extending this approach to larger-scale tasks, we observe consistent performance gains across domains. We achieve improvements in vision-language tasks and especially notable increases in image generation, with CMMD scores improving by up to 15 points.
- Abstract(参考訳): 低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にし、ストレージコストを低減し、破滅的な忘れ込みのリスクを最小限にする。
しかし、それらはしばしば、収束性の低い最適化の課題を提起する。
これらの課題を克服するために、推論コストを増大させることなくトレーニングを加速する過パラメータ化アプローチを導入する。
本手法は,MLPを分離して各層への埋め込みを学習することにより,低ランク適応を再パラメータ化する。
学習した埋め込みはMLPに入力され、アダプタパラメータを生成する。
このような過パラメータ化は適応学習率と運動量として暗黙的に機能し、最適化を加速している。
推論時、MLPは破棄され、標準の低ランクアダプタが残る。
MLP過パラメータ化が小さいが難しいプロキシタスクに与える影響を調べるため、行列分解のために実装し、より高速な収束と最終損失の低減を実現する。
このアプローチを大規模タスクに拡張することで、ドメイン間の一貫したパフォーマンス向上を観察する。
我々は視覚言語タスクの改善、特に画像生成の顕著な向上を実現し、CMMDスコアは最大15ポイント向上した。
関連論文リスト
- Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Pareto Low-Rank Adapters: Efficient Multi-Task Learning with Preferences [49.14535254003683]
PaLoRAは、タスク固有の低ランクアダプタでオリジナルのモデルを拡張する、新しいパラメータ効率の手法である。
実験の結果,PaLoRAは様々なデータセットでMTLとPFLのベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-10T21:25:51Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-Tuning [22.950914612765494]
微調整型大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
メモリ効率のゼロ階数法(MeZO)は、前方通過のみを使用してLPMを微調整しようとするため、バックプロパゲーショングラフは不要である。
本稿では,ZO手法の性能と収束性を改善するために,AdaZeta(Adaptive Zeroth-order-Train Adaption)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-26T04:33:13Z) - LaMDA: Large Model Fine-Tuning via Spectrally Decomposed Low-Dimensional Adaptation [7.788139145984213]
低ランク適応(LoRA)は、ファインチューン大言語モデル(LLM)のデフォルトのアプローチとなっている。
我々はスペクトル分解低次元適応(LaMDA)による大型モデル微調整を導入する。
LaMDAはトレーニング可能なパラメータとピークGPUメモリフットプリントを大幅に削減する。
論文 参考訳(メタデータ) (2024-06-18T17:52:59Z) - Efficient Adaptation of Large Vision Transformer via Adapter
Re-Composing [8.88477151877883]
高容量事前学習モデルはコンピュータビジョンにおける問題解決に革命をもたらした。
本稿では,効率的な事前学習モデル適応に対処する新しい適応型再コンパイル(ARC)戦略を提案する。
提案手法は適応パラメータの再利用可能性について考察し,パラメータ共有方式を提案する。
論文 参考訳(メタデータ) (2023-10-10T01:04:15Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。