論文の概要: In-Context Learning for Attention Scheme: from Single Softmax Regression
to Multiple Softmax Regression via a Tensor Trick
- arxiv url: http://arxiv.org/abs/2307.02419v1
- Date: Wed, 5 Jul 2023 16:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 12:56:54.560756
- Title: In-Context Learning for Attention Scheme: from Single Softmax Regression
to Multiple Softmax Regression via a Tensor Trick
- Title(参考訳): 注意体系のインコンテキスト学習:テンソルトリックによる単一ソフトマックス回帰から複数ソフトマックス回帰へ
- Authors: Yeqi Gao, Zhao Song, Shenghao Xie
- Abstract要約: 本研究では,本研究における注意関係回帰のための2つの定式化に基づく文脈内学習について考察する。
我々の回帰問題は、ソフトマックス関連回帰に関する以前の研究と類似している。
- 参考スコア(独自算出の注目度): 15.090593955414137
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have brought significant and transformative
changes in human society. These models have demonstrated remarkable
capabilities in natural language understanding and generation, leading to
various advancements and impacts across several domains.
We consider the in-context learning under two formulation for attention
related regression in this work. Given matrices $A_1 \in \mathbb{R}^{n \times
d}$, and $A_2 \in \mathbb{R}^{n \times d}$ and $B \in \mathbb{R}^{n \times n}$,
the purpose is to solve some certain optimization problems: Normalized version
$\min_{X} \| D(X)^{-1} \exp(A_1 X A_2^\top) - B \|_F^2$ and Rescaled version
$\| \exp(A_1 X A_2^\top) - D(X) \cdot B \|_F^2$. Here $D(X) := \mathrm{diag}(
\exp(A_1 X A_2^\top) {\bf 1}_n )$.
Our regression problem shares similarities with previous studies on
softmax-related regression. Prior research has extensively investigated
regression techniques related to softmax regression: Normalized version $\|
\langle \exp(Ax) , {\bf 1}_n \rangle^{-1} \exp(Ax) - b \|_2^2$ and Resscaled
version $\| \exp(Ax) - \langle \exp(Ax), {\bf 1}_n \rangle b \|_2^2 $
In contrast to previous approaches, we adopt a vectorization technique to
address the regression problem in matrix formulation. This approach expands the
dimension from $d$ to $d^2$, resembling the formulation of the regression
problem mentioned earlier.
Upon completing the lipschitz analysis of our regression function, we have
derived our main result concerning in-context learning.
- Abstract(参考訳): 大きな言語モデル(LLM)は、人間の社会に大きな変化をもたらしている。
これらのモデルは自然言語の理解と生成において顕著な能力を示し、いくつかの領域で様々な進歩と影響をもたらした。
本研究における注意関連回帰の2つの定式化の下での文脈内学習を考える。
行列 $A_1 \in \mathbb{R}^{n \times d}$ と $A_2 \in \mathbb{R}^{n \times d}$ と $B \in \mathbb{R}^{n \times n}$ が与えられたとき、正規化バージョン $\min_{X} \| D(X)^{-1} \exp(A_1 X A_2^\top) - B \|_F^2$ と再スケールバージョン $\| \exp(A_1 X A_2^\top) - D(X) \cdot B \|_F^2$ である。
ここで、$D(X) := \mathrm{diag}( \exp(A_1 X A_2^\top) {\bf 1}_n )$である。
我々の回帰問題は、ソフトマックス関連回帰に関する以前の研究と類似している。
正規化バージョン $\| \langle \exp(ax) , {\bf 1}_n \rangle^{-1} \exp(ax) - b \|_2^2$ and resscaledバージョン $\| \exp(ax) - \langle \exp(ax), {\bf 1}_n \rangle b \|_2^2 $ 以前のアプローチとは対照的に、行列形成における回帰問題に対処するためにベクトル化手法を採用する。
このアプローチは、前述の回帰問題の定式化に似た次元を$d$から$d^2$に拡張する。
回帰関数のリプシッツ解析を完了すると、インコンテキスト学習に関する主要な結果が導出される。
関連論文リスト
- How to Inverting the Leverage Score Distribution? [16.744561210470632]
ツールとして広く利用されているレバレッジスコアにもかかわらず、本論文では、新しい問題、すなわち反転レバレッジスコアについて検討する。
我々は、ニュートン法における大域収束率を確保するために反復縮小と帰納仮説を用いる。
この統計レバレッジの反転に関する重要な研究は、解釈、データリカバリ、セキュリティにおける多くの新しい応用を開放する。
論文 参考訳(メタデータ) (2024-04-21T21:36:42Z) - A Unified Scheme of ResNet and Softmax [8.556540804058203]
回帰問題を理論的に解析する: $| langle exp(Ax) + A x, bf 1_n rangle-1 ( exp(Ax) + Ax )
この回帰問題は、ソフトマックス回帰とResNetを組み合わせた統一的なスキームである。
論文 参考訳(メタデータ) (2023-09-23T21:41:01Z) - Solving Attention Kernel Regression Problem via Pre-conditioner [9.131385887605935]
我々は2種類の回帰問題に対するアルゴリズムを設計する:$min_xin mathbbRd|(Atop A)jx-b|$ for any positive integer $j$。
2番目のプロキシは、$exp(AAtop)$で表され、回帰$min_xin mathbbRn|exp(AAtop)xb |$で表されるグラム行列に指数的にエントリワイドを適用する。
論文 参考訳(メタデータ) (2023-08-28T04:37:38Z) - An Iterative Algorithm for Rescaled Hyperbolic Functions Regression [15.090593955414137]
本稿では指数回帰とソフトマックス回帰の収束について検討する。
この問題に対する入力空間時間アルゴリズムを提案する。
私たちのアルゴリズムフレームワークは非常に一般的なもので、$cosh()$や$sinh()$といった関数にも適用できます。
論文 参考訳(メタデータ) (2023-05-01T05:16:07Z) - Optimal Sketching Bounds for Sparse Linear Regression [116.30196615349226]
我々は、$ell_p$ノルムや広範なヒンジ様損失関数のクラスから、様々な損失関数の下で、$k$スパース線形回帰の難読スケッチを研究する。
スパース$ell$varepsレグレッションの場合、$Theta(klog(d/k)/varepsilon2)$ rowsでスケッチの上に曖昧な分布が存在し、これは定数要素に固執することを示している。
また、$O(mu2 klog(mun d/varepsilon)/varのスケッチも示します。
論文 参考訳(メタデータ) (2023-04-05T07:24:19Z) - Almost Linear Constant-Factor Sketching for $\ell_1$ and Logistic
Regression [74.28017932704704]
我々は,従来の難解なスケッチとターンタイルストリーミングの結果を$ell_1$とロジスティック回帰で改善する。
また、入力空間の間隔で1+varepsilon$近似を出力するトレードオフも行います。
我々のスケッチは、データ依存正規化器が個々のロジスティック損失の分散に対応するような、正規化されたロジスティック回帰を近似するために拡張することができる。
論文 参考訳(メタデータ) (2023-03-31T18:12:33Z) - Solving Regularized Exp, Cosh and Sinh Regression Problems [40.47799094316649]
注意計算はTransformer、GPT-4、ChatGPTといった大規模言語モデルの基本的なタスクである。
素直な方法はニュートンの方法を使うことである。
論文 参考訳(メタデータ) (2023-03-28T04:26:51Z) - Private Isotonic Regression [54.32252900997422]
部分順序集合 (poset) $mathcalX$ と任意のリプシッツ損失関数に対する等調回帰の問題を考察する。
約$mathrmwidth(mathcalX) cdot log|mathcalX| / n$, ここで$mathrmwidth(mathcalX)$はポーズの幅である。
上記の境界は本質的に最良であることを示す。
論文 参考訳(メタデータ) (2022-10-27T05:08:07Z) - Active Sampling for Linear Regression Beyond the $\ell_2$ Norm [70.49273459706546]
対象ベクトルの少数のエントリのみを問合せすることを目的とした線形回帰のためのアクティブサンプリングアルゴリズムについて検討する。
我々はこの$d$への依存が対数的要因まで最適であることを示す。
また、損失関数に対して最初の全感度上界$O(dmax1,p/2log2 n)$を提供し、最大で$p$成長する。
論文 参考訳(メタデータ) (2021-11-09T00:20:01Z) - Statistical Query Lower Bounds for List-Decodable Linear Regression [55.06171096484622]
本稿では,リスト復号化可能な線形回帰問題について考察する。
我々の主な成果は、この問題に対して$dmathrmpoly (1/alpha)$の統計的クエリ(SQ)の低いバウンダリである。
論文 参考訳(メタデータ) (2021-06-17T17:45:21Z) - Online nonparametric regression with Sobolev kernels [99.12817345416846]
我々は、ソボレフ空間のクラス上の後悔の上限を$W_pbeta(mathcalX)$, $pgeq 2, beta>fracdp$ とする。
上界は minimax regret analysis で支えられ、$beta> fracd2$ または $p=infty$ の場合、これらの値は(本質的に)最適である。
論文 参考訳(メタデータ) (2021-02-06T15:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。