論文の概要: Finite-Time Analysis of Gradient Descent for Shallow Transformers
- arxiv url: http://arxiv.org/abs/2601.16514v1
- Date: Fri, 23 Jan 2026 07:28:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.590447
- Title: Finite-Time Analysis of Gradient Descent for Shallow Transformers
- Title(参考訳): 浅変圧器用グラディエントディフレッシュの有限時間解析
- Authors: Enes Arda, Semih Cayci, Atilla Eryilmaz,
- Abstract要約: 本研究では,トランスフォーマーの最適化環境が不適当であることから,トランスフォーマーの性能が向上する理由を考察する。
完全なコンテキストを維持するために、Transformerのメモリ要件は長さとともに増加する。
- 参考スコア(独自算出の注目度): 16.566605776410068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding why Transformers perform so well remains challenging due to their non-convex optimization landscape. In this work, we analyze a shallow Transformer with $m$ independent heads trained by projected gradient descent in the kernel regime. Our analysis reveals two main findings: (i) the width required for nonasymptotic guarantees scales only logarithmically with the sample size $n$, and (ii) the optimization error is independent of the sequence length $T$. This contrasts sharply with recurrent architectures, where the optimization error can grow exponentially with $T$. The trade-off is memory: to keep the full context, the Transformer's memory requirement grows with the sequence length. We validate our theoretical results numerically in a teacher-student setting and confirm the predicted scaling laws for Transformers.
- Abstract(参考訳): トランスフォーマーがうまく機能する理由を理解することは、非凸最適化の状況のため、依然として困難である。
本研究は,カーネルシステムにおいて,投射勾配降下法により訓練された独立ヘッド$m$の浅層トランスフォーマーを解析する。
我々の分析では2つの主な発見が判明した。
(i)無症候性保証に必要な幅は、サンプルサイズ$n$と対数的にのみスケールし、
(ii)最適化誤差はシーケンス長$T$とは独立である。
これは、最適化エラーが指数関数的に$T$で増大する反復アーキテクチャとは対照的である。
完全なコンテキストを維持するために、Transformerのメモリ要求はシーケンスの長さとともに増加する。
教師-学生設定で理論結果を数値的に検証し,変圧器のスケーリング法則を検証した。
関連論文リスト
- Efficient and Minimax-optimal In-context Nonparametric Regression with Transformers [5.687100661457289]
我々は、$(log n)パラメータと$bigl(n2/(2+d)log3 nbigr)$事前学習列を持つ事前学習変換器が、最小収束率を達成できることを証明する。
論文 参考訳(メタデータ) (2026-01-21T14:13:38Z) - Provable Failure of Language Models in Learning Majority Boolean Logic via Gradient Descent [15.291830857281015]
勾配法を用いて学習すると,トランスフォーマーが真に単純な多数関数を学習できるかどうかを検討する。
我々の分析は、$mathrmpoly(d)$グラデーションクエリ後も、Transformerモデルの一般化誤差は依然としてかなり大きいことを証明している。
論文 参考訳(メタデータ) (2025-04-07T03:08:12Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - What Dense Graph Do You Need for Self-Attention? [73.82686008622596]
我々はハイパーキューブにおけるトークンインタラクションをモデル化し、バニラ変換器と同等あるいはそれ以上の結果を示すスパーストランスフォーマーHypercube Transformerを提案する。
様々なシーケンス長を必要とするタスクの実験は、グラフ関数の検証をうまく行いました。
論文 参考訳(メタデータ) (2022-05-27T14:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。