論文の概要: Transformers Are Universally Consistent
- arxiv url: http://arxiv.org/abs/2505.24531v1
- Date: Fri, 30 May 2025 12:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.947368
- Title: Transformers Are Universally Consistent
- Title(参考訳): トランスフォーマーは普遍的に一貫性がある
- Authors: Sagar Ghosh, Kushal Bose, Swagatam Das,
- Abstract要約: ソフトマックスに基づく非線形アテンションを備えたトランスフォーマーは,最小二乗の回帰処理を行う場合,一様に整合性を示す。
我々は経験的誤差の上限を導出し、この条件下では$mathcalO(t-1/2d)$の証明可能な速度で減衰し、$t$は入力トークンの数を表し、$d$は埋め込み次元を表す。
- 参考スコア(独自算出の注目度): 14.904264782690639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their central role in the success of foundational models and large-scale language modeling, the theoretical foundations governing the operation of Transformers remain only partially understood. Contemporary research has largely focused on their representational capacity for language comprehension and their prowess in in-context learning, frequently under idealized assumptions such as linearized attention mechanisms. Initially conceived to model sequence-to-sequence transformations, a fundamental and unresolved question is whether Transformers can robustly perform functional regression over sequences of input tokens. This question assumes heightened importance given the inherently non-Euclidean geometry underlying real-world data distributions. In this work, we establish that Transformers equipped with softmax-based nonlinear attention are uniformly consistent when tasked with executing Ordinary Least Squares (OLS) regression, provided both the inputs and outputs are embedded in hyperbolic space. We derive deterministic upper bounds on the empirical error which, in the asymptotic regime, decay at a provable rate of $\mathcal{O}(t^{-1/2d})$, where $t$ denotes the number of input tokens and $d$ the embedding dimensionality. Notably, our analysis subsumes the Euclidean setting as a special case, recovering analogous convergence guarantees parameterized by the intrinsic dimensionality of the data manifold. These theoretical insights are corroborated through empirical evaluations on real-world datasets involving both continuous and categorical response variables.
- Abstract(参考訳): 基礎モデルや大規模言語モデリングの成功において中心的な役割を担っているにもかかわらず、トランスフォーマーの運営を統括する理論的基礎は部分的には理解されていない。
現代研究は、言語理解の表現能力と、文脈内学習における彼らの長所を中心に、しばしば線形化された注意機構のような理想化された仮定の下で、主に焦点を当ててきた。
当初、シーケンスからシーケンスへの変換をモデルとして考えられたが、基本的で未解決の問題は、トランスフォーマーが入力トークンのシーケンスよりも機能的回帰を堅牢に行うことができるかどうかである。
この問題は、本質的に非ユークリッド幾何学に基づく実世界のデータ分布を考えると、重要性を高めることを前提としている。
本研究では,入力と出力の両方が双曲空間に埋め込まれている場合,通常の最小方形(OLS)回帰の実行をタスクする場合には,ソフトマックスに基づく非線形アテンションを備えた変圧器が一様に整合していることを確立する。
我々は、漸近的な状態において$\mathcal{O}(t^{-1/2d})$の証明可能な速度で崩壊する経験的誤差に関する決定論的上界を導出する。
特に、この分析はユークリッドの設定を特別な場合と仮定し、データ多様体の内在次元によってパラメータ化される類似収束を復元する。
これらの理論的な洞察は、連続的および分類的応答変数を含む実世界のデータセットに関する経験的評価によって裏付けられる。
関連論文リスト
- Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Inductive Biases and Variable Creation in Self-Attention Mechanisms [25.79946667926312]
この研究は自己アテンション加群の帰納バイアスの理論解析を提供する。
私たちの焦点は、どの関数と長距離依存関係を表現したいかを明確に決めることです。
我々の主な結果は、有界ノルムトランスフォーマー層がスパース変数を生成することを示している。
論文 参考訳(メタデータ) (2021-10-19T16:36:19Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。