論文の概要: Attention Scheme Inspired Softmax Regression
- arxiv url: http://arxiv.org/abs/2304.10411v1
- Date: Thu, 20 Apr 2023 15:50:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 12:35:36.311662
- Title: Attention Scheme Inspired Softmax Regression
- Title(参考訳): ソフトマックス回帰に触発されたアテンションスキーム
- Authors: Yichuan Deng, Zhihang Li, Zhao Song
- Abstract要約: 大きな言語モデル(LLM)は、人間の社会に変革をもたらした。
LLMにおける鍵計算の1つはソフトマックス単位である。
この研究はソフトマックス単位にインスピレーションを与え、ソフトマックス回帰問題を定義する。
- 参考スコア(独自算出の注目度): 20.825033982038455
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have made transformed changes for human society.
One of the key computation in LLMs is the softmax unit. This operation is
important in LLMs because it allows the model to generate a distribution over
possible next words or phrases, given a sequence of input words. This
distribution is then used to select the most likely next word or phrase, based
on the probabilities assigned by the model. The softmax unit plays a crucial
role in training LLMs, as it allows the model to learn from the data by
adjusting the weights and biases of the neural network.
In the area of convex optimization such as using central path method to solve
linear programming. The softmax function has been used a crucial tool for
controlling the progress and stability of potential function [Cohen, Lee and
Song STOC 2019, Brand SODA 2020].
In this work, inspired the softmax unit, we define a softmax regression
problem. Formally speaking, given a matrix $A \in \mathbb{R}^{n \times d}$ and
a vector $b \in \mathbb{R}^n$, the goal is to use greedy type algorithm to
solve \begin{align*} \min_{x} \| \langle \exp(Ax), {\bf 1}_n \rangle^{-1}
\exp(Ax) - b \|_2^2. \end{align*} In certain sense, our provable convergence
result provides theoretical support for why we can use greedy algorithm to
train softmax function in practice.
- Abstract(参考訳): 大きな言語モデル(LLM)は、人間の社会に変革をもたらした。
LLMにおける鍵計算の1つはソフトマックス単位である。
この操作はLLMにおいて重要であり、入力語列が与えられた場合、モデルが次の単語やフレーズにまたがる分布を生成することができる。
この分布は、モデルによって割り当てられた確率に基づいて、最も可能性の高い次の単語またはフレーズを選択するために使用される。
softmaxユニットは、ニューラルネットワークの重みとバイアスを調整することによって、モデルがデータから学習できるようにするため、llmのトレーニングにおいて重要な役割を果たす。
中央経路法を用いて線形計画を解くような凸最適化の分野において。
ソフトマックス関数はポテンシャル関数の進行と安定性を制御する重要なツールとして使われてきた[Cohen, Lee and Song STOC 2019, Brand SODA 2020]。
この研究はソフトマックス単位にインスピレーションを与え、ソフトマックス回帰問題を定義する。
形式的には、行列 $a \in \mathbb{r}^{n \times d}$ とベクトル $b \in \mathbb{r}^n$ が与えられたとき、目標は greedy 型アルゴリズムを使って \begin{align*} \min_{x} \| \langle \exp(ax), {\bf 1}_n \rangle^{-1} \exp(ax) - b \|_2^2 を解くことである。
ある意味では、我々の証明可能な収束結果は、実際にソフトマックス関数を訓練するためにグリーディアルゴリズムを使用できる理由を理論的に支援する。
関連論文リスト
- MultiMax: Sparse and Multi-Modal Attention Learning [60.49318008131978]
SoftMaxは現代の機械学習アルゴリズムのユビキタスな成分である。
分散性はSoftMaxの変種族によって達成できるが、それらはしばしば代替損失関数を必要とし、多重モダリティを保たない。
入力入力範囲に応じて出力分布を適応的に変調するMultiMaxを提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:43Z) - Binary Hypothesis Testing for Softmax Models and Leverage Score Models [8.06972158448711]
ソフトマックスモデルの設定における二元仮説テストの問題点を考察する。
我々はソフトマックスモデルとレバレッジスコアモデルとの類似性を描く。
論文 参考訳(メタデータ) (2024-05-09T15:56:29Z) - Local Convergence of Approximate Newton Method for Two Layer Nonlinear
Regression [21.849997443967705]
2層回帰問題は先行研究でよく研究されている。
第1の層はReLUユニットで活性化され、第2の層はソフトマックスユニットで活性化される。
ヘッセン行列の損失関数は正定値であり、ある仮定の下でリプシッツが連続であることを証明する。
論文 参考訳(メタデータ) (2023-11-26T19:19:02Z) - A Unified Scheme of ResNet and Softmax [8.556540804058203]
回帰問題を理論的に解析する: $| langle exp(Ax) + A x, bf 1_n rangle-1 ( exp(Ax) + Ax )
この回帰問題は、ソフトマックス回帰とResNetを組み合わせた統一的なスキームである。
論文 参考訳(メタデータ) (2023-09-23T21:41:01Z) - Zero-th Order Algorithm for Softmax Attention Optimization [21.631643446337737]
ソフトマックス最適化に適したゼロ次アルゴリズムを提案する。
本稿では,アルゴリズムの収束を実演し,大規模言語モデルに対する効率的な勾配計算の有効性を明らかにする。
論文 参考訳(メタデータ) (2023-07-17T09:43:50Z) - An Oblivious Stochastic Composite Optimization Algorithm for Eigenvalue
Optimization Problems [76.2042837251496]
相補的な合成条件に基づく2つの難解なミラー降下アルゴリズムを導入する。
注目すべきは、どちらのアルゴリズムも、目的関数のリプシッツ定数や滑らかさに関する事前の知識なしで機能する。
本稿では,大規模半確定プログラム上での手法の効率性とロバスト性を示す。
論文 参考訳(メタデータ) (2023-06-30T08:34:29Z) - An Iterative Algorithm for Rescaled Hyperbolic Functions Regression [15.090593955414137]
本稿では指数回帰とソフトマックス回帰の収束について検討する。
この問題に対する入力空間時間アルゴリズムを提案する。
私たちのアルゴリズムフレームワークは非常に一般的なもので、$cosh()$や$sinh()$といった関数にも適用できます。
論文 参考訳(メタデータ) (2023-05-01T05:16:07Z) - Refined Regret for Adversarial MDPs with Linear Function Approximation [50.00022394876222]
我々は,損失関数が約1,300ドル以上のエピソードに対して任意に変化するような,敵対的決定過程(MDP)の学習を検討する。
本稿では,同じ設定で$tildemathcal O(K2/3)$に対する後悔を改善する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T14:37:21Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov
Decision Processes [91.38793800392108]
本稿では,マルコフ決定過程(MDP)の遷移確率核が線形混合モデルである線形関数近似による強化学習について検討する。
上記の線形混合 MDP に対して$textUCRL-VTR+$ という線形関数近似を用いた計算効率の良い新しいアルゴリズムを提案する。
我々の知る限り、これらは線形関数近似を持つRLのための計算効率が良く、ほぼ最小のアルゴリズムである。
論文 参考訳(メタデータ) (2020-12-15T18:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。