論文の概要: An Iterative Algorithm for Rescaled Hyperbolic Functions Regression
- arxiv url: http://arxiv.org/abs/2305.00660v1
- Date: Mon, 1 May 2023 05:16:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 14:00:43.311712
- Title: An Iterative Algorithm for Rescaled Hyperbolic Functions Regression
- Title(参考訳): 再スケール双曲関数回帰のための反復アルゴリズム
- Authors: Yeqi Gao, Zhao Song, Junze Yin
- Abstract要約: 本稿では指数回帰とソフトマックス回帰の収束について検討する。
この問題に対する入力空間時間アルゴリズムを提案する。
私たちのアルゴリズムフレームワークは非常に一般的なもので、$cosh()$や$sinh()$といった関数にも適用できます。
- 参考スコア(独自算出の注目度): 15.090593955414137
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have numerous real-life applications across
various domains, such as natural language translation, sentiment analysis,
language modeling, chatbots and conversational agents, creative writing, text
classification, summarization, and generation. LLMs have shown great promise in
improving the accuracy and efficiency of these tasks, and have the potential to
revolutionize the field of natural language processing (NLP) in the years to
come.
Exponential function based attention unit is a fundamental element in LLMs.
Several previous works have studied the convergence of exponential regression
and softmax regression.
The exponential regression [Li, Song, Zhou 2023] and softmax regression
[Deng, Li, Song 2023] can be formulated as follows. Given matrix $A \in
\mathbb{R}^{n \times d}$ and vector $b \in \mathbb{R}^n$, the goal of
exponential regression is to solve \begin{align*} \min_{x} \| \exp(Ax) - b \|_2
\end{align*} and the goal of softmax regression is to solve \begin{align*}
\min_{x} \| \langle \exp(Ax) , {\bf 1}_n \rangle^{-1} \exp(Ax) - b \|_2 .
\end{align*}
In this work, we define a slightly different formulation than softmax
regression. \begin{align*} \min_{x \in \mathbb{R}^d } \| u(x) - \langle u(x) ,
{\bf 1}_n \rangle \cdot b \|_2 \end{align*} where $u(x) \in \{ \exp(Ax),
\cosh(Ax) , \sinh(Ax) \}$. We provide an input sparsity time algorithm for this
problem. Our algorithm framework is very general and can be applied to
functions like $\cosh()$ and $\sinh()$ as well. Our technique is also general
enough to be applied to in-context learning for rescaled softmax regression.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語翻訳、感情分析、言語モデリング、チャットボットと会話エージェント、クリエイティブな文章作成、テキスト分類、要約、生成など、さまざまな領域にまたがる多数の現実的な応用を持つ。
LLMはこれらのタスクの精度と効率を改善する上で大きな可能性を示しており、今後数年間で自然言語処理(NLP)の分野に革命をもたらす可能性がある。
指数関数に基づく注意ユニットはLLMの基本要素である。
いくつかの先行研究は指数回帰とソフトマックス回帰の収束を研究した。
指数回帰(Li,Song,Zhou2023)とソフトマックス回帰(Deng,Li,Song2023)を次のように定式化することができる。
行列 $A \in \mathbb{R}^{n \times d} とベクトル $b \in \mathbb{R}^n$ が与えられたとき、指数回帰の目標は \begin{align*} \min_{x} \| \exp(Ax) - b \|_2 \end{align*} を解くことであり、ソフトマックス回帰の目標は \begin{align*} \min_{x} \| \langle \exp(Ax) , {\bf 1}_n \rangle^{-1} \exp(Ax) - b \|_2 を解くことである。
end{align*} この研究では、ソフトマックス回帰とは若干異なる定式化を定義する。
\begin{align*} \min_{x \in \mathbb{R}^d } \| u(x) - \langle u(x) , {\bf 1}_n \rangle \cdot b \|_2 \end{align*} ここで $u(x) \in \{ \exp(Ax), \cosh(Ax) , \sinh(Ax) \}$ となる。
この問題に対する入力スパーシティタイムアルゴリズムを提案する。
私たちのアルゴリズムフレームワークは非常に汎用的で、$\cosh()$や$\sinh()$といった関数にも適用できます。
また,本手法は,再スケールソフトマックス回帰のための文脈内学習にも適用可能である。
関連論文リスト
- How to Inverting the Leverage Score Distribution? [16.744561210470632]
ツールとして広く利用されているレバレッジスコアにもかかわらず、本論文では、新しい問題、すなわち反転レバレッジスコアについて検討する。
我々は、ニュートン法における大域収束率を確保するために反復縮小と帰納仮説を用いる。
この統計レバレッジの反転に関する重要な研究は、解釈、データリカバリ、セキュリティにおける多くの新しい応用を開放する。
論文 参考訳(メタデータ) (2024-04-21T21:36:42Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Distribution-Independent Regression for Generalized Linear Models with
Oblivious Corruptions [49.69852011882769]
一般化線形モデル (GLMs) の重畳雑音の存在下での回帰問題に対する最初のアルゴリズムを示す。
本稿では,この問題に最も一般的な分布非依存設定で対処するアルゴリズムを提案する。
これは、サンプルの半分以上を任意に破損させる難聴ノイズを持つGLMレグレッションに対する最初の新しいアルゴリズムによる結果である。
論文 参考訳(メタデータ) (2023-09-20T21:41:59Z) - In-Context Learning for Attention Scheme: from Single Softmax Regression
to Multiple Softmax Regression via a Tensor Trick [15.090593955414137]
本研究では,本研究における注意関係回帰のための2つの定式化に基づく文脈内学習について考察する。
我々の回帰問題は、ソフトマックス関連回帰に関する以前の研究と類似している。
論文 参考訳(メタデータ) (2023-07-05T16:41:01Z) - Attention Scheme Inspired Softmax Regression [20.825033982038455]
大きな言語モデル(LLM)は、人間の社会に変革をもたらした。
LLMにおける鍵計算の1つはソフトマックス単位である。
この研究はソフトマックス単位にインスピレーションを与え、ソフトマックス回帰問題を定義する。
論文 参考訳(メタデータ) (2023-04-20T15:50:35Z) - An Over-parameterized Exponential Regression [18.57735939471469]
LLM(Large Language Models)の分野での最近の発展は、指数的アクティベーション関数の使用への関心を喚起している。
ニューラル関数 $F: mathbbRd times m times mathbbRd times mathbbRd times mathbbRd times mathbbRd times mathbbRd times mathbbRd times mathbbRd times mathbbRdd
論文 参考訳(メタデータ) (2023-03-29T07:29:07Z) - Solving Regularized Exp, Cosh and Sinh Regression Problems [40.47799094316649]
注意計算はTransformer、GPT-4、ChatGPTといった大規模言語モデルの基本的なタスクである。
素直な方法はニュートンの方法を使うことである。
論文 参考訳(メタデータ) (2023-03-28T04:26:51Z) - Private Isotonic Regression [54.32252900997422]
部分順序集合 (poset) $mathcalX$ と任意のリプシッツ損失関数に対する等調回帰の問題を考察する。
約$mathrmwidth(mathcalX) cdot log|mathcalX| / n$, ここで$mathrmwidth(mathcalX)$はポーズの幅である。
上記の境界は本質的に最良であることを示す。
論文 参考訳(メタデータ) (2022-10-27T05:08:07Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Active Sampling for Linear Regression Beyond the $\ell_2$ Norm [70.49273459706546]
対象ベクトルの少数のエントリのみを問合せすることを目的とした線形回帰のためのアクティブサンプリングアルゴリズムについて検討する。
我々はこの$d$への依存が対数的要因まで最適であることを示す。
また、損失関数に対して最初の全感度上界$O(dmax1,p/2log2 n)$を提供し、最大で$p$成長する。
論文 参考訳(メタデータ) (2021-11-09T00:20:01Z) - Optimal Mean Estimation without a Variance [103.26777953032537]
本研究では,データ生成分布の分散が存在しない環境での重み付き平均推定問題について検討する。
最小の信頼区間を$n,d,delta$の関数として得る推定器を設計する。
論文 参考訳(メタデータ) (2020-11-24T22:39:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。