論文の概要: An Iterative Algorithm for Rescaled Hyperbolic Functions Regression
- arxiv url: http://arxiv.org/abs/2305.00660v1
- Date: Mon, 1 May 2023 05:16:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 14:00:43.311712
- Title: An Iterative Algorithm for Rescaled Hyperbolic Functions Regression
- Title(参考訳): 再スケール双曲関数回帰のための反復アルゴリズム
- Authors: Yeqi Gao, Zhao Song, Junze Yin
- Abstract要約: 本稿では指数回帰とソフトマックス回帰の収束について検討する。
この問題に対する入力空間時間アルゴリズムを提案する。
私たちのアルゴリズムフレームワークは非常に一般的なもので、$cosh()$や$sinh()$といった関数にも適用できます。
- 参考スコア(独自算出の注目度): 15.090593955414137
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have numerous real-life applications across
various domains, such as natural language translation, sentiment analysis,
language modeling, chatbots and conversational agents, creative writing, text
classification, summarization, and generation. LLMs have shown great promise in
improving the accuracy and efficiency of these tasks, and have the potential to
revolutionize the field of natural language processing (NLP) in the years to
come.
Exponential function based attention unit is a fundamental element in LLMs.
Several previous works have studied the convergence of exponential regression
and softmax regression.
The exponential regression [Li, Song, Zhou 2023] and softmax regression
[Deng, Li, Song 2023] can be formulated as follows. Given matrix $A \in
\mathbb{R}^{n \times d}$ and vector $b \in \mathbb{R}^n$, the goal of
exponential regression is to solve \begin{align*} \min_{x} \| \exp(Ax) - b \|_2
\end{align*} and the goal of softmax regression is to solve \begin{align*}
\min_{x} \| \langle \exp(Ax) , {\bf 1}_n \rangle^{-1} \exp(Ax) - b \|_2 .
\end{align*}
In this work, we define a slightly different formulation than softmax
regression. \begin{align*} \min_{x \in \mathbb{R}^d } \| u(x) - \langle u(x) ,
{\bf 1}_n \rangle \cdot b \|_2 \end{align*} where $u(x) \in \{ \exp(Ax),
\cosh(Ax) , \sinh(Ax) \}$. We provide an input sparsity time algorithm for this
problem. Our algorithm framework is very general and can be applied to
functions like $\cosh()$ and $\sinh()$ as well. Our technique is also general
enough to be applied to in-context learning for rescaled softmax regression.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語翻訳、感情分析、言語モデリング、チャットボットと会話エージェント、クリエイティブな文章作成、テキスト分類、要約、生成など、さまざまな領域にまたがる多数の現実的な応用を持つ。
LLMはこれらのタスクの精度と効率を改善する上で大きな可能性を示しており、今後数年間で自然言語処理(NLP)の分野に革命をもたらす可能性がある。
指数関数に基づく注意ユニットはLLMの基本要素である。
いくつかの先行研究は指数回帰とソフトマックス回帰の収束を研究した。
指数回帰(Li,Song,Zhou2023)とソフトマックス回帰(Deng,Li,Song2023)を次のように定式化することができる。
行列 $A \in \mathbb{R}^{n \times d} とベクトル $b \in \mathbb{R}^n$ が与えられたとき、指数回帰の目標は \begin{align*} \min_{x} \| \exp(Ax) - b \|_2 \end{align*} を解くことであり、ソフトマックス回帰の目標は \begin{align*} \min_{x} \| \langle \exp(Ax) , {\bf 1}_n \rangle^{-1} \exp(Ax) - b \|_2 を解くことである。
end{align*} この研究では、ソフトマックス回帰とは若干異なる定式化を定義する。
\begin{align*} \min_{x \in \mathbb{R}^d } \| u(x) - \langle u(x) , {\bf 1}_n \rangle \cdot b \|_2 \end{align*} ここで $u(x) \in \{ \exp(Ax), \cosh(Ax) , \sinh(Ax) \}$ となる。
この問題に対する入力スパーシティタイムアルゴリズムを提案する。
私たちのアルゴリズムフレームワークは非常に汎用的で、$\cosh()$や$\sinh()$といった関数にも適用できます。
また,本手法は,再スケールソフトマックス回帰のための文脈内学習にも適用可能である。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Local Convergence of Approximate Newton Method for Two Layer Nonlinear
Regression [21.849997443967705]
2層回帰問題は先行研究でよく研究されている。
第1の層はReLUユニットで活性化され、第2の層はソフトマックスユニットで活性化される。
ヘッセン行列の損失関数は正定値であり、ある仮定の下でリプシッツが連続であることを証明する。
論文 参考訳(メタデータ) (2023-11-26T19:19:02Z) - A General Theory for Softmax Gating Multinomial Logistic Mixture of Experts [28.13187489224953]
本稿では,入力をゲーティング関数に渡す前に変換する改良型ソフトマックスゲーティング関数を提案する。
その結果, 従来の相互作用は消失し, パラメータ推定率が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-22T05:32:19Z) - The Closeness of In-Context Learning and Weight Shifting for Softmax
Regression [42.95984289657388]
ソフトマックス回帰定式化に基づく文脈内学習について検討する。
基本回帰タスクに対して自己注意のみの変換器を訓練する場合、勾配差と変換器で学習したモデルに非常に類似性があることが示される。
論文 参考訳(メタデータ) (2023-04-26T04:33:41Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Piecewise linear regression and classification [0.20305676256390928]
本稿では,線形予測器を用いた多変量回帰と分類問題の解法を提案する。
本論文で記述されたアルゴリズムのpython実装は、http://cse.lab.imtlucca.it/bemporad/parcで利用可能である。
論文 参考訳(メタデータ) (2021-03-10T17:07:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。