論文の概要: Zero-th Order Algorithm for Softmax Attention Optimization
- arxiv url: http://arxiv.org/abs/2307.08352v1
- Date: Mon, 17 Jul 2023 09:43:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 14:04:34.450438
- Title: Zero-th Order Algorithm for Softmax Attention Optimization
- Title(参考訳): ソフトマックス注意最適化のためのゼロ次アルゴリズム
- Authors: Yichuan Deng, Zhihang Li, Sridhar Mahadevan, Zhao Song
- Abstract要約: ソフトマックス最適化に適したゼロ次アルゴリズムを提案する。
本稿では,アルゴリズムの収束を実演し,大規模言語モデルに対する効率的な勾配計算の有効性を明らかにする。
- 参考スコア(独自算出の注目度): 21.631643446337737
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have brought about significant transformations
in human society. Among the crucial computations in LLMs, the softmax unit
holds great importance. Its helps the model generating a probability
distribution on potential subsequent words or phrases, considering a series of
input words. By utilizing this distribution, the model selects the most
probable next word or phrase, based on the assigned probabilities. The softmax
unit assumes a vital function in LLM training as it facilitates learning from
data through the adjustment of neural network weights and biases.
With the development of the size of LLMs, computing the gradient becomes
expensive. However, Zero-th Order method can approximately compute the gradient
with only forward passes. In this paper, we present a Zero-th Order algorithm
specifically tailored for Softmax optimization. We demonstrate the convergence
of our algorithm, highlighting its effectiveness in efficiently computing
gradients for large-scale LLMs. By leveraging the Zeroth-Order method, our work
contributes to the advancement of optimization techniques in the context of
complex language models.
- Abstract(参考訳): 大きな言語モデル(LLM)は、人間の社会に大きな変革をもたらした。
LLMにおける重要な計算のうち、ソフトマックス単位は非常に重要である。
これは、一連の入力単語を考慮して、潜在的に後続する単語やフレーズの確率分布を生成するモデルに役立つ。
この分布を利用して、与えられた確率に基づいて最も確率の高い次の単語またはフレーズを選択する。
softmaxユニットは、ニューラルネットワークの重みとバイアスの調整を通じてデータからの学習を容易にするため、llmトレーニングにおいて重要な機能を仮定する。
LLMのサイズが大きくなるにつれて、勾配の計算は高価になる。
しかし、ゼロオーダー法は前方通過のみの勾配を計算することができる。
本稿では,ソフトマックス最適化に特化したゼロ次アルゴリズムを提案する。
我々は,アルゴリズムの収束性を実証し,大規模LLMの効率よく勾配を計算する上での有効性を強調した。
ゼロ次法を活用することで,複雑な言語モデルの文脈における最適化手法の進歩に寄与する。
関連論文リスト
- Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Algorithmic Language Models with Neurally Compiled Libraries [16.284360949127723]
大規模言語モデルには真のアルゴリズム能力がない。
本稿では,基本的な操作と高度な微分可能プログラムのライブラリによるLLMの拡張を提案する。
微分可能なコンピュータを用いたLLaMA3の拡張可能性について検討する。
論文 参考訳(メタデータ) (2024-07-06T00:27:05Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Large Language Models As Evolution Strategies [6.873777465945062]
本研究では,大規模言語モデル (LLM) が進化的最適化アルゴリズムを実装可能であるかどうかを考察する。
我々は,最小から最多の集団集団を選別する新規なプロンプト戦略を導入する。
我々の設定により、ユーザがLLMベースの進化戦略を得ることができ、それはEvoLLM'と呼ばれ、ベースラインアルゴリズムを頑健に上回る。
論文 参考訳(メタデータ) (2024-02-28T15:02:17Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Use Your INSTINCT: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers [66.823588073584]
大規模言語モデル (LLM) は命令追従能力に優れ、様々なアプリケーションで優れた性能を発揮している。
最近の研究は、ブラックボックスLLMに与えられる命令を自動的に最適化するために、クエリ効率のよいベイズ最適化(BO)アルゴリズムを用いている。
NNサロゲートによりBOのGPを置換し,ブラックボックスLLMの命令を最適化するニューラルバンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T02:01:16Z) - Attention Scheme Inspired Softmax Regression [20.825033982038455]
大きな言語モデル(LLM)は、人間の社会に変革をもたらした。
LLMにおける鍵計算の1つはソフトマックス単位である。
この研究はソフトマックス単位にインスピレーションを与え、ソフトマックス回帰問題を定義する。
論文 参考訳(メタデータ) (2023-04-20T15:50:35Z) - Optimizing the optimizer for data driven deep neural networks and
physics informed neural networks [2.54325834280441]
ニューラルネットワークに適合するモデルの品質を,小~中程度のパラメータで決定する手法について検討する。
LMアルゴリズムは機械の精度に迅速に収束でき、他のアルゴリズムよりも大きな利点があることがわかった。
論文 参考訳(メタデータ) (2022-05-16T02:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。