論文の概要: Attention layers provably solve single-location regression
- arxiv url: http://arxiv.org/abs/2410.01537v1
- Date: Wed, 2 Oct 2024 13:28:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 17:14:45.657349
- Title: Attention layers provably solve single-location regression
- Title(参考訳): 注意層は単一位置回帰を確実に解決する
- Authors: Pierre Marion, Raphaël Berthier, Gérard Biau, Claire Boyer,
- Abstract要約: Transformerのような注意に基づくモデルは様々なタスクにまたがるが、特にトークンの間隔や内部線形構造に関する包括的な理論的理解は欠如している。
本稿では,一列のトークンだけが出力を決定する単一位置回帰タスクを導入し,その位置が線形射影によって検索可能な潜在値であることを示す。
- 参考スコア(独自算出の注目度): 12.355792442566681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention-based models, such as Transformer, excel across various tasks but lack a comprehensive theoretical understanding, especially regarding token-wise sparsity and internal linear representations. To address this gap, we introduce the single-location regression task, where only one token in a sequence determines the output, and its position is a latent random variable, retrievable via a linear projection of the input. To solve this task, we propose a dedicated predictor, which turns out to be a simplified version of a non-linear self-attention layer. We study its theoretical properties, by showing its asymptotic Bayes optimality and analyzing its training dynamics. In particular, despite the non-convex nature of the problem, the predictor effectively learns the underlying structure. This work highlights the capacity of attention mechanisms to handle sparse token information and internal linear structures.
- Abstract(参考訳): Transformerのような注意に基づくモデルは、様々なタスクにまたがるが、特にトークンの幅と内部線形表現に関する包括的な理論的理解は欠如している。
このギャップに対処するために、シーケンス内の1つのトークンだけが出力を決定する単一位置回帰タスクを導入し、その位置は入力の線形射影によって取得可能な潜在確率変数である。
そこで本研究では,非線形自己保持層の簡易版である専用予測器を提案する。
我々は、その漸近的ベイズ最適性を示し、その訓練力学を解析することによって、その理論的性質を研究する。
特に、非凸性にもかかわらず、予測子は基礎構造を効果的に学習する。
この研究は、スパーストークン情報や内部線形構造を扱うための注意機構の能力を強調している。
関連論文リスト
- Learning Differentiable Surrogate Losses for Structured Prediction [23.15754467559003]
本稿では,ニューラルネットワークによってパラメータ化された構造化損失関数を,出力トレーニングデータから直接学習する新しいフレームワークを提案する。
結果として、微分可能な損失は、サロゲート空間の有限次元によるニューラルネットワークの学習を可能にするだけでなく、出力データの新しい構造を予測できる。
論文 参考訳(メタデータ) (2024-11-18T16:07:47Z) - A Random Matrix Theory Perspective on the Spectrum of Learned Features and Asymptotic Generalization Capabilities [30.737171081270322]
完全に接続された2層ニューラルネットワークは、単一だが攻撃的な勾配降下ステップの後、ターゲット関数にどのように適応するかを検討する。
これは、2層ニューラルネットワークの一般化における特徴学習の影響を、ランダムな特徴や遅延トレーニング体制を超えて、はっきりと説明してくれる。
論文 参考訳(メタデータ) (2024-10-24T17:24:34Z) - Minimum-Norm Interpolation Under Covariate Shift [14.863831433459902]
高次元線形回帰に関する非分布研究は、テキシトベニンオーバーフィッティング(textitbenign overfitting)として知られる現象の同定につながった。
本稿では,移動学習環境における線形補間器の非漸近的過剰リスク境界を初めて証明する。
論文 参考訳(メタデータ) (2024-03-31T01:41:57Z) - Learning Linear Causal Representations from Interventions under General
Nonlinear Mixing [52.66151568785088]
介入対象にアクセスできることなく、未知の単一ノード介入を考慮し、強い識別可能性を示す。
これは、ディープニューラルネットワークの埋め込みに対する非ペアの介入による因果識別性の最初の例である。
論文 参考訳(メタデータ) (2023-06-04T02:32:12Z) - How does unlabeled data improve generalization in self-training? A
one-hidden-layer theoretical analysis [93.37576644429578]
この研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立する。
トレーニング収束と一般化能力の両面で、ラベルなしデータの利点を実証する。
また、浅部ニューラルネットワークから深部ニューラルネットワークへの実験は、我々の確立した自己学習に関する理論的知見の正しさを正当化するものである。
論文 参考訳(メタデータ) (2022-01-21T02:16:52Z) - Minimax Estimation of Linear Functions of Eigenvectors in the Face of
Small Eigen-Gaps [95.62172085878132]
固有ベクトル摂動解析は様々な統計データ科学の応用において重要な役割を果たす。
未知の固有ベクトルの任意の線型関数の摂動を特徴付ける統計理論の一組を開発する。
自然の「プラグイン」推定器に固有の非無視バイアス問題を緩和するために,非バイアス推定器を開発する。
論文 参考訳(メタデータ) (2021-04-07T17:55:10Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Theoretical Analysis of Self-Training with Deep Networks on Unlabeled
Data [48.4779912667317]
自己学習アルゴリズムは、ニューラルネットワークを使ってラベルのないデータで学ぶことに成功している。
この研究は、半教師なし学習、教師なしドメイン適応、教師なし学習のための深層ネットワークによる自己学習の統一的理論的解析を提供する。
論文 参考訳(メタデータ) (2020-10-07T19:43:55Z) - Learning Output Embeddings in Structured Prediction [73.99064151691597]
構造化予測に対する強力で柔軟なアプローチは、予測される構造化対象を潜在的に無限次元の特徴空間に埋め込むことである。
原空間における予測は、前像問題の解法により計算される。
本研究では,新しい特徴空間に出力埋め込みと回帰関数の有限近似を共同で学習することを提案する。
論文 参考訳(メタデータ) (2020-07-29T09:32:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。