論文の概要: Zero-th Order Algorithm for Softmax Attention Optimization
- arxiv url: http://arxiv.org/abs/2307.08352v1
- Date: Mon, 17 Jul 2023 09:43:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 14:04:34.450438
- Title: Zero-th Order Algorithm for Softmax Attention Optimization
- Title(参考訳): ソフトマックス注意最適化のためのゼロ次アルゴリズム
- Authors: Yichuan Deng, Zhihang Li, Sridhar Mahadevan, Zhao Song
- Abstract要約: ソフトマックス最適化に適したゼロ次アルゴリズムを提案する。
本稿では,アルゴリズムの収束を実演し,大規模言語モデルに対する効率的な勾配計算の有効性を明らかにする。
- 参考スコア(独自算出の注目度): 21.631643446337737
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have brought about significant transformations
in human society. Among the crucial computations in LLMs, the softmax unit
holds great importance. Its helps the model generating a probability
distribution on potential subsequent words or phrases, considering a series of
input words. By utilizing this distribution, the model selects the most
probable next word or phrase, based on the assigned probabilities. The softmax
unit assumes a vital function in LLM training as it facilitates learning from
data through the adjustment of neural network weights and biases.
With the development of the size of LLMs, computing the gradient becomes
expensive. However, Zero-th Order method can approximately compute the gradient
with only forward passes. In this paper, we present a Zero-th Order algorithm
specifically tailored for Softmax optimization. We demonstrate the convergence
of our algorithm, highlighting its effectiveness in efficiently computing
gradients for large-scale LLMs. By leveraging the Zeroth-Order method, our work
contributes to the advancement of optimization techniques in the context of
complex language models.
- Abstract(参考訳): 大きな言語モデル(LLM)は、人間の社会に大きな変革をもたらした。
LLMにおける重要な計算のうち、ソフトマックス単位は非常に重要である。
これは、一連の入力単語を考慮して、潜在的に後続する単語やフレーズの確率分布を生成するモデルに役立つ。
この分布を利用して、与えられた確率に基づいて最も確率の高い次の単語またはフレーズを選択する。
softmaxユニットは、ニューラルネットワークの重みとバイアスの調整を通じてデータからの学習を容易にするため、llmトレーニングにおいて重要な機能を仮定する。
LLMのサイズが大きくなるにつれて、勾配の計算は高価になる。
しかし、ゼロオーダー法は前方通過のみの勾配を計算することができる。
本稿では,ソフトマックス最適化に特化したゼロ次アルゴリズムを提案する。
我々は,アルゴリズムの収束性を実証し,大規模LLMの効率よく勾配を計算する上での有効性を強調した。
ゼロ次法を活用することで,複雑な言語モデルの文脈における最適化手法の進歩に寄与する。
関連論文リスト
- Large Language Models As Evolution Strategies [6.873777465945062]
本研究では,大規模言語モデル (LLM) が進化的最適化アルゴリズムを実装可能であるかどうかを考察する。
我々は,最小から最多の集団集団を選別する新規なプロンプト戦略を導入する。
我々の設定により、ユーザがLLMベースの進化戦略を得ることができ、それはEvoLLM'と呼ばれ、ベースラインアルゴリズムを頑健に上回る。
論文 参考訳(メタデータ) (2024-02-28T15:02:17Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM
Fine-Tuning: A Benchmark [170.47660885570463]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Use Your INSTINCT: INSTruction optimization usIng Neural bandits Coupled
with Transformers [69.70169378788411]
大規模言語モデル (LLM) は命令追従能力に優れ、様々なアプリケーションで優れた性能を発揮している。
最近の研究は、ブラックボックスLLMに与えられる命令を自動的に最適化するために、クエリ効率のよいベイズ最適化(BO)アルゴリズムを用いている。
NNサロゲートによりBOのGPを置換し,ブラックボックスLLMの命令を最適化するニューラルバンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T02:01:16Z) - Attention Scheme Inspired Softmax Regression [20.825033982038455]
大きな言語モデル(LLM)は、人間の社会に変革をもたらした。
LLMにおける鍵計算の1つはソフトマックス単位である。
この研究はソフトマックス単位にインスピレーションを与え、ソフトマックス回帰問題を定義する。
論文 参考訳(メタデータ) (2023-04-20T15:50:35Z) - Optimizing the optimizer for data driven deep neural networks and
physics informed neural networks [2.54325834280441]
ニューラルネットワークに適合するモデルの品質を,小~中程度のパラメータで決定する手法について検討する。
LMアルゴリズムは機械の精度に迅速に収束でき、他のアルゴリズムよりも大きな利点があることがわかった。
論文 参考訳(メタデータ) (2022-05-16T02:42:22Z) - An Accelerated Variance-Reduced Conditional Gradient Sliding Algorithm
for First-order and Zeroth-order Optimization [111.24899593052851]
条件勾配アルゴリズム(Frank-Wolfeアルゴリズムとも呼ばれる)は、最近、機械学習コミュニティで人気を取り戻している。
ARCSは、ゼロ階最適化において凸問題を解く最初のゼロ階条件勾配スライディング型アルゴリズムである。
1次最適化では、ARCSの収束結果は、勾配クエリのオラクルの数で、従来のアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-09-18T07:08:11Z) - Dual Optimization for Kolmogorov Model Learning Using Enhanced Gradient
Descent [8.714458129632158]
コルモゴロフモデル(コルモゴロフモデル、英: Kolmogorov model、KM)は、確率変数の集合の基本的な確率構造を学ぶための解釈可能で予測可能な表現手法である。
正規化双対最適化と拡張勾配降下法(GD)を併用した計算スケーラブルなKM学習アルゴリズムを提案する。
提案したKM学習アルゴリズムを用いた論理的関係マイニングの精度は80%以上である。
論文 参考訳(メタデータ) (2021-07-11T10:33:02Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Efficient Learning of Generative Models via Finite-Difference Score
Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。
我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文 参考訳(メタデータ) (2020-07-07T10:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。