論文の概要: Derivative-Free Optimization for Low-Rank Adaptation in Large Language
Models
- arxiv url: http://arxiv.org/abs/2403.01754v1
- Date: Mon, 4 Mar 2024 06:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:54:07.029411
- Title: Derivative-Free Optimization for Low-Rank Adaptation in Large Language
Models
- Title(参考訳): 大規模言語モデルにおける低ランク適応の導出自由最適化
- Authors: Feihu Jin, Yin Liu, Ying Tan
- Abstract要約: グラデーションの計算を最適化する微分自由最適化手法を提案する。
提案手法は, メモリ使用率と収束速度において, 従来の勾配に基づくパラメータ効率調整法や, 微分自由度最適化法に比べ, 大幅に向上し, 明らかな優位性を示す。
- 参考スコア(独自算出の注目度): 4.926283917321645
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Parameter-efficient tuning methods such as LoRA could achieve comparable
performance to model tuning by tuning a small portion of the parameters.
However, substantial computational resources are still required, as this
process involves calculating gradients and performing back-propagation
throughout the model. Much effort has recently been devoted to utilizing the
derivative-free optimization method to eschew the computation of gradients and
showcase an augmented level of robustness in few-shot settings. In this paper,
we prepend the low-rank modules into each self-attention layer of the model and
employ two derivative-free optimization methods to optimize these low-rank
modules at each layer alternately. Extensive results on various tasks and
language models demonstrate that our proposed method achieves substantial
improvement and exhibits clear advantages in memory usage and convergence speed
compared to existing gradient-based parameter-efficient tuning and
derivative-free optimization methods in few-shot settings.
- Abstract(参考訳): LoRAのようなパラメータ効率のよいチューニング手法は、パラメータのごく一部をチューニングすることで、モデルチューニングに匹敵する性能を得ることができた。
しかし、このプロセスには勾配の計算とモデル全体のバックプロパゲーションが含まれるため、計算資源は依然として必要である。
最近、微分自由最適化法を利用して勾配の計算を計算し、数ショット設定で強靭性の強化を示すことに多くの努力が注がれている。
本稿では,モデルの各自己保持層に低ランクモジュールをプリペイドし,各層における低ランクモジュールを交互に最適化するために2つの微分自由最適化手法を用いる。
様々なタスクや言語モデルに関する広範な結果から,提案手法はメモリ使用率やコンバージェンス速度において,従来のグラデーションに基づくパラメータ効率調整法やデリバティブフリー最適化法に比べ,大幅な改善を達成していることが示された。
関連論文リスト
- Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Edge-Efficient Deep Learning Models for Automatic Modulation Classification: A Performance Analysis [0.7428236410246183]
無線信号の自動変調分類(AMC)のための最適化畳み込みニューラルネットワーク(CNN)について検討した。
本稿では,これらの手法を組み合わせて最適化モデルを提案する。
実験結果から,提案手法と組み合わせ最適化手法は,複雑度が著しく低いモデルの開発に極めて有効であることが示唆された。
論文 参考訳(メタデータ) (2024-04-11T06:08:23Z) - Multi-fidelity Constrained Optimization for Stochastic Black Box
Simulators [1.6385815610837167]
上記の問題に対処するために、Scout-Nd (Stochastic Constrained Optimization for N dimensions) アルゴリズムを導入する。
Scout-Ndは効率よく勾配を推定し、推定器勾配のノイズを低減し、計算労力をさらに削減するために多重忠実性スキームを適用する。
提案手法を標準ベンチマークで検証し,既存の手法よりも優れた性能を示すパラメータの最適化の有効性を示す。
論文 参考訳(メタデータ) (2023-11-25T23:36:38Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Efficient Learning of Generative Models via Finite-Difference Score
Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。
我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文 参考訳(メタデータ) (2020-07-07T10:05:01Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。