論文の概要: Derivative-Free Optimization for Low-Rank Adaptation in Large Language
Models
- arxiv url: http://arxiv.org/abs/2403.01754v1
- Date: Mon, 4 Mar 2024 06:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:54:07.029411
- Title: Derivative-Free Optimization for Low-Rank Adaptation in Large Language
Models
- Title(参考訳): 大規模言語モデルにおける低ランク適応の導出自由最適化
- Authors: Feihu Jin, Yin Liu, Ying Tan
- Abstract要約: グラデーションの計算を最適化する微分自由最適化手法を提案する。
提案手法は, メモリ使用率と収束速度において, 従来の勾配に基づくパラメータ効率調整法や, 微分自由度最適化法に比べ, 大幅に向上し, 明らかな優位性を示す。
- 参考スコア(独自算出の注目度): 4.926283917321645
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Parameter-efficient tuning methods such as LoRA could achieve comparable
performance to model tuning by tuning a small portion of the parameters.
However, substantial computational resources are still required, as this
process involves calculating gradients and performing back-propagation
throughout the model. Much effort has recently been devoted to utilizing the
derivative-free optimization method to eschew the computation of gradients and
showcase an augmented level of robustness in few-shot settings. In this paper,
we prepend the low-rank modules into each self-attention layer of the model and
employ two derivative-free optimization methods to optimize these low-rank
modules at each layer alternately. Extensive results on various tasks and
language models demonstrate that our proposed method achieves substantial
improvement and exhibits clear advantages in memory usage and convergence speed
compared to existing gradient-based parameter-efficient tuning and
derivative-free optimization methods in few-shot settings.
- Abstract(参考訳): LoRAのようなパラメータ効率のよいチューニング手法は、パラメータのごく一部をチューニングすることで、モデルチューニングに匹敵する性能を得ることができた。
しかし、このプロセスには勾配の計算とモデル全体のバックプロパゲーションが含まれるため、計算資源は依然として必要である。
最近、微分自由最適化法を利用して勾配の計算を計算し、数ショット設定で強靭性の強化を示すことに多くの努力が注がれている。
本稿では,モデルの各自己保持層に低ランクモジュールをプリペイドし,各層における低ランクモジュールを交互に最適化するために2つの微分自由最適化手法を用いる。
様々なタスクや言語モデルに関する広範な結果から,提案手法はメモリ使用率やコンバージェンス速度において,従来のグラデーションに基づくパラメータ効率調整法やデリバティブフリー最適化法に比べ,大幅な改善を達成していることが示された。
関連論文リスト
- Simulated Overparameterization [35.12611686956487]
SOP(Simulated Overparametrization)と呼ばれる新しいパラダイムを導入する。
SOPは、モデルトレーニングと推論に対するユニークなアプローチを提案し、パラメータのより小さく効率的なサブセットが推論中の実際の計算に使用されるように、非常に多くのパラメータを持つモデルを訓練する。
本稿では,トランスフォーマーモデルを含む主要なアーキテクチャとシームレスに統合する,新しいアーキテクチャ非依存のアルゴリズム"Majority kernels"を提案する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Partial Fine-Tuning: A Successor to Full Fine-Tuning for Vision
Transformers [50.23439411530435]
部分微調整は、効率と精度を同時に向上できる革新的で有望な方向であることを示す。
部分的な微調整のための適切な層の選択を導くための,新しい微調整角度測定法を提案する。
広範囲のデータセットとモデルに関する包括的な実験は、部分的な微調整の大きな可能性を検証する。
論文 参考訳(メタデータ) (2023-12-25T10:11:34Z) - Multi-fidelity Constrained Optimization for Stochastic Black Box
Simulators [1.6385815610837167]
上記の問題に対処するために、Scout-Nd (Stochastic Constrained Optimization for N dimensions) アルゴリズムを導入する。
Scout-Ndは効率よく勾配を推定し、推定器勾配のノイズを低減し、計算労力をさらに削減するために多重忠実性スキームを適用する。
提案手法を標準ベンチマークで検証し,既存の手法よりも優れた性能を示すパラメータの最適化の有効性を示す。
論文 参考訳(メタデータ) (2023-11-25T23:36:38Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [63.99489591661645]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Hyperboost: Hyperparameter Optimization by Gradient Boosting surrogate
models [0.4079265319364249]
現在の最先端の方法は、ランダムフォレストまたはガウスプロセスを利用してサーロゲートモデルを構築しています。
勾配向上に基づく新しいサロゲートモデルを提案する。
実験により,新しい手法は,ある程度の分類問題に対して,最先端技術より優れていることを示す。
論文 参考訳(メタデータ) (2021-01-06T22:07:19Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Real-Time Optimization Meets Bayesian Optimization and Derivative-Free
Optimization: A Tale of Modifier Adaptation [0.0]
本稿では,不確実なプロセスのリアルタイム最適化において,プラントモデルミスマッチを克服するための修飾子適応方式について検討する。
提案したスキームは物理モデルを組み込んでおり、探査中のリスクを最小限に抑えるために信頼領域のアイデアに依存している。
取得関数の使用、プロセスノイズレベルを知る、または名目上のプロセスモデルを指定する利点を図示する。
論文 参考訳(メタデータ) (2020-09-18T12:57:17Z) - Efficient Learning of Generative Models via Finite-Difference Score
Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。
我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文 参考訳(メタデータ) (2020-07-07T10:05:01Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。