論文の概要: Ordinary Least Squares is a Special Case of Transformer
- arxiv url: http://arxiv.org/abs/2604.13656v1
- Date: Wed, 15 Apr 2026 09:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.466829
- Title: Ordinary Least Squares is a Special Case of Transformer
- Title(参考訳): 変圧器の特殊症例としての通常最小方形
- Authors: Xiaojun Tan, Yuchen Zhao,
- Abstract要約: 通常のLast Squares (OLS) は単層線形変換器の特殊な場合である。
また、Transformer内の非結合な遅くて高速なメモリ機構も発見しました。
この進歩はホップフィールドエネルギー関数の線形メモリ容量から指数記憶容量への遷移を促進する。
- 参考スコア(独自算出の注目度): 13.28797305532504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The statistical essence of the Transformer architecture has long remained elusive: Is it a universal approximator, or a neural network version of known computational algorithms? Through rigorous algebraic proof, we show that the latter better describes Transformer's basic nature: Ordinary Least Squares (OLS) is a special case of the single-layer Linear Transformer. Using the spectral decomposition of the empirical covariance matrix, we construct a specific parameter setting where the attention mechanism's forward pass becomes mathematically equivalent to the OLS closed-form projection. This means attention can solve the problem in one forward pass, not by iterating. Building upon this prototypical case, we further uncover a decoupled slow and fast memory mechanism within Transformers. Finally, the evolution from our established linear prototype to standard Transformers is discussed. This progression facilitates the transition of the Hopfield energy function from linear to exponential memory capacity, thereby establishing a clear continuity between modern deep architectures and classical statistical inference.
- Abstract(参考訳): Transformerアーキテクチャの統計的性質は、長い間解明され続けている。これは普遍的な近似器なのか、あるいは既知の計算アルゴリズムのニューラルネットワークバージョンなのか?
厳密な代数的証明を通して、後者がトランスフォーマーの基本的性質をよりよく記述していることが示される: 正規極小正方形(OLS)は単層線形変換器の特別な場合である。
経験的共分散行列のスペクトル分解を用いて、注意機構の前方通過が数学的にORS閉形式投影と等価となるようなパラメータ設定を構築する。
これは、注意が1つの前方通過で問題を解決できることを意味します。
このプロトタイプのケースに基づいて、トランスフォーマー内の分離された遅くて高速なメモリ機構を更に発見する。
最後に, 確立された線形プロトタイプから標準変換器への進化について述べる。
この進歩はホップフィールドエネルギー関数を線形から指数記憶容量へ遷移させ、現代の深層構造と古典的な統計的推論との明確な連続性を確立する。
関連論文リスト
- The calculus of variations of the Transformer on the hyperspherical tangent bundle [0.0]
トークン空間を横断するラグランジアン最適化を通じて、トランスフォーマーの理論的背景を提供する。
トランスフォーマーはフローマップとして、高次元の単位球面に沿って各トークンの接ファイバーに存在する。
変換器のオイラー・ラグランジュ方程式を導出する。
論文 参考訳(メタデータ) (2025-07-21T09:43:33Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Folded Context Condensation in Path Integral Formalism for Infinite Context Transformers [0.0]
本稿では、パス積分形式論の枠組みの中で、そのコアメカニズムを再解釈することにより、トランスフォーマーアルゴリズムの一般化された定式化を提案する。
よりコンパクトで効率的な表現が得られ、シーケンスのコンテキスト情報をメモリのようなセグメントに凝縮する。
本稿では,この手法の有効性をPasskey検索タスクと要約タスクで検証し,提案手法が履歴情報を保存し,メモリ使用率とシーケンス長を線形に拡張することを示す。
論文 参考訳(メタデータ) (2024-05-07T19:05:26Z) - Investigating Recurrent Transformers with Dynamic Halt [64.862738244735]
本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。
提案手法を拡張・結合する新しい手法を提案し,検討する。
論文 参考訳(メタデータ) (2024-02-01T19:47:31Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。