Fugu-MT 論文翻訳(概要): Barriers to Universal Reasoning With Transformers (And How to Overcome Them)

論文の概要: Barriers to Universal Reasoning With Transformers (And How to Overcome Them)

arxiv url: http://arxiv.org/abs/2604.25800v1
Date: Tue, 28 Apr 2026 16:10:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-29 16:49:17.941185
Title: Barriers to Universal Reasoning With Transformers (And How to Overcome Them)
Title（参考訳）: トランスフォーマーと共謀するバリアたち(そして克服する方法)
Authors: Oliver Kraus, Yash Sarrof, Yuekun Yao, Alexander Koller, Michael Hahn,
Abstract要約: CoT(Chain-of-Thought)は、トランスフォーマーの性能を実証的に改善し、理論的にはチューリング完全性への表現性を高めることが示されている。我々は、Transformer長の一般化に関する最近の理論フレームワークを使用し、標準的な位置エンコーディングと有限アルファベットの下では、CoT を持つ変換器は$TC0$以上の問題を解くことができない。我々は,シミュレーション実行時のCoTトレース長が一定まで線形であるチューリングマシンの時間一般化可能なシミュレーションを実現する。
参考スコア（独自算出の注目度）: 46.59247939156339
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Chain-of-Thought (CoT) has been shown to empirically improve Transformers' performance, and theoretically increase their expressivity to Turing completeness. However, whether Transformers can learn to generalize to CoT traces longer than those seen during training is understudied. We use recent theoretical frameworks for Transformer length generalization and find that -- under standard positional encodings and a finite alphabet -- Transformers with CoT cannot solve problems beyond $TC^0$, i.e. the expressivity benefits do not hold under the stricter requirement of length-generalizable learnability. However, if we allow the vocabulary to grow with problem size, we attain a length-generalizable simulation of Turing machines where the CoT trace length is linear in the simulated runtime up to a constant. Our construction overcomes two core obstacles to reliable length generalization: repeated copying and last-occurrence retrieval. We assign each tape position a unique signpost token, and log only value changes to enable recovery of the current tape symbol through counts circumventing both barriers. Further, we empirically show that the use of such signpost tokens and value change encodings provide actionable guidance to improve length generalization on hard problems.
Abstract（参考訳）: CoT(Chain-of-Thought)は、トランスフォーマーの性能を実証的に改善し、理論的にはチューリング完全性への表現性を高めることが示されている。しかし、TransformerがCoTトレースへの一般化を学習できるかは、トレーニング中に見られるものよりも長い。我々は、トランスフォーマー長の一般化に関する最近の理論フレームワークを使用し、標準的な位置エンコーディングと有限アルファベットの下では、CoTを持つトランスフォーマーは$TC^0$以上の問題を解決することができない。しかし、問題の大きさで語彙を拡大させると、シミュレーション実行時にCoTトレース長が一定まで線形となるチューリングマシンの時間一般化可能なシミュレーションが得られる。提案手法は,2つのコア障害を克服し,信頼性の高い長さ一般化を実現する。それぞれのテープ位置をユニークなサインポストトークンに割り当て、両方の障壁を回避して現在のテープシンボルの復元を可能にするために、ログのみの値変更を行う。さらに、このようなサインポストトークンと値変化エンコーディングを使用することで、ハード問題における長さ一般化を改善するための実用的なガイダンスが提供されることを実証的に示す。

論文の概要: Barriers to Universal Reasoning With Transformers (And How to Overcome Them)

関連論文リスト