論文の概要: Position: The Turing-Completeness of Autoregressive Transformers Relies Heavily on Context Management
- arxiv url: http://arxiv.org/abs/2605.19514v2
- Date: Wed, 27 May 2026 14:00:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:54.769199
- Title: Position: The Turing-Completeness of Autoregressive Transformers Relies Heavily on Context Management
- Title(参考訳): 自己回帰変換器のチューリング完全性は文脈管理に大きく依存する
- Authors: Guanyu Cui, Zhewei Wei, Kun He,
- Abstract要約: 本研究では,異なる文脈管理手法により,計算能力が著しく異なることを示す。
我々は、文脈管理が現実の自己回帰変換器の計算力を批判的に決定する中心的な要素であると主張する。
- 参考スコア(独自算出の注目度): 37.13981898340341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many works make the eye-catching claim that Transformers are Turing-complete. However, the literature often conflates two distinct settings: (i) a fixed Transformer system setting, in which a fixed autoregressive Transformer is coupled with a fixed context-management method to process inputs of different lengths step by step, and (ii) a scaling-family setting, in which a family of different models (with increasing context-window length or numerical precision) is used to handle different input lengths. Existing proofs of Transformer Turing-completeness are frequently established in setting (ii), whereas real-world LLM deployment and the standard notion of Turing-completeness correspond more naturally to setting (i). In this paper, we first formalize the fixed-system setting, thereby providing a concrete characterization of how real-world LLMs operate. We then argue that results proved in the scaling-family setting provide theoretically meaningful resource bounds but do not establish Turing-completeness, thereby clarifying a common misinterpretation of existing results. Finally, we show that different context-management methods can yield sharply different computational power, and we advocate the position that context management is a central component that critically determines the computational power of real-world autoregressive Transformers.
- Abstract(参考訳): 多くの作品は、トランスフォーマーはチューリング完全であると主張する。
しかし、文献はしばしば2つの異なる設定を混同している。
一 固定自己回帰変換器と固定文脈管理方法とを結合して、異なる長さの入力を段階的に処理する固定変換器システムの設定
二 異なるモデルの家系(文脈ウィンドウ長や数値精度の増大を伴う)が異なる入力長を扱うために使用されるスケールハウスの設定。
変圧器チューリング完全性の既存の証明は、設定時にしばしば確立される
(二)現実のLLM展開とチューリング完全性という標準概念は設定と自然に一致している。
(i)。
本稿では,まず固定系設定を定式化し,実世界のLLMの動作の具体的な特徴を与える。
そして、スケーリング・ファミリーの設定で証明された結果が理論的に意味のあるリソース境界を提供するが、チューリング完全性は確立せず、既存の結果の共通の誤解を明らかにする。
最後に,実世界の自己回帰変換器の計算パワーを批判的に決定する中心的な要素はコンテキスト管理である,という立場を提唱する。
関連論文リスト
- Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability [53.21677928601684]
階層的関連性伝播は、ディープラーニングにおける説明可能性に対する最も有望なアプローチの1つである。
そこで我々は,様々な位置符号化手法にまたがる属性の伝播を目的とした,理論的なLRP規則を提案する。
本手法は,視力とNLP説明可能性の両面において,最先端の課題を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-02T18:07:55Z) - Transformers Are Universally Consistent [14.904264782690639]
ソフトマックスに基づく非線形アテンションを備えたトランスフォーマーは,最小二乗の回帰処理を行う場合,一様に整合性を示す。
我々は経験的誤差の上限を導出し、この条件下では$mathcalO(t-1/2d)$の証明可能な速度で減衰し、$t$は入力トークンの数を表し、$d$は埋め込み次元を表す。
論文 参考訳(メタデータ) (2025-05-30T12:39:26Z) - Learnable Multi-Scale Wavelet Transformer: A Novel Alternative to Self-Attention [0.0]
Learnable Multi-Scale Wavelet Transformer (LMWT) は、標準的なドット生成の自己アテンションを置き換える新しいアーキテクチャである。
本稿では,学習可能なHaarウェーブレットモジュールの詳細な数学的定式化とトランスフォーマーフレームワークへの統合について述べる。
この結果から,LMWTは計算上の優位性を保ちながら,競争性能を向上することが示された。
論文 参考訳(メタデータ) (2025-04-08T22:16:54Z) - Ask, and it shall be given: On the Turing completeness of prompting [47.08833920586575]
大規模言語モデル(LLM)は機械学習に革命をもたらし、いわゆるLLMプロンプトパラダイムを開始した。
本稿では, LLMプロンプトパラダイムに関する最初の理論的研究を, 我々の知識を最大限活用するために提示する。
有限サイズの変換器が存在し、計算可能な任意の関数に対して、変換器が関数を演算する対応するプロンプトが存在することを示す。
論文 参考訳(メタデータ) (2024-11-04T11:26:38Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Variational Transformers for Diverse Response Generation [71.53159402053392]
変分変換器(VT)は、変分自己注意フィードフォワードシーケンスモデルである。
VTはトランスフォーマーの並列化性と大域的受容場計算とCVAEの変動特性を組み合わせる。
本稿では,1)大域潜伏変数を用いた談話レベルの多様性のモデル化,2)細粒潜伏変数の列によるトランスフォーマーデコーダの拡張,の2種類のVTについて検討する。
論文 参考訳(メタデータ) (2020-03-28T07:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。