論文の概要: Pause Tokens Strictly Increase the Expressivity of Constant-Depth Transformers
- arxiv url: http://arxiv.org/abs/2505.21024v1
- Date: Tue, 27 May 2025 10:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.592802
- Title: Pause Tokens Strictly Increase the Expressivity of Constant-Depth Transformers
- Title(参考訳): Pause Tokens Strictly increase the Expressivity of Constant-Depth Transformers
- Authors: Charles London, Varun Kanade,
- Abstract要約: 一定深さの対数幅変換器に停止トークンを追加すると、その計算表現性が強くなることを示す。
対数精度変換器の場合、停止トークンを追加することで、既知の上限値に一致する$mathsfTC0$に相当する表現性が得られることを示す。
本研究は,従来の経験的発見に対する厳密な理論的説明を提供し,ポーズトークンが幅,深さ,数値的精度とどのように相互作用するかを明らかにし,それらを異なるメカニズムとして位置づけた。
- 参考スコア(独自算出の注目度): 11.287482309003334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pause tokens, simple filler symbols such as "...", consistently improve Transformer performance on both language and mathematical tasks, yet their theoretical effect remains unexplained. We provide the first formal separation result, proving that adding pause tokens to constant-depth, logarithmic-width Transformers strictly increases their computational expressivity. With bounded-precision activations, Transformers without pause tokens compute only a strict subset of $\mathsf{AC}^0$ functions, while adding a polynomial number of pause tokens allows them to express the entire class. For logarithmic-precision Transformers, we show that adding pause tokens achieves expressivity equivalent to $\mathsf{TC}^0$, matching known upper bounds. Empirically, we demonstrate that two-layer causally masked Transformers can learn parity when supplied with pause tokens, a function that they appear unable to learn without them. Our results provide a rigorous theoretical explanation for prior empirical findings, clarify how pause tokens interact with width, depth, and numeric precision, and position them as a distinct mechanism, complementary to chain-of-thought prompting, for enhancing Transformer reasoning.
- Abstract(参考訳): あいまいなトークン、"..."のような単純なフィラー記号は、言語と数学の両方のタスクにおけるトランスフォーマーのパフォーマンスを一貫して改善するが、理論的な影響は説明されていない。
本研究では, 一定深度, 対数幅の変圧器に停止トークンを追加することで, 計算表現率を厳密に向上させることを証明した最初の形式的分離結果を提供する。
有界精度のアクティベーションでは、停止トークンのないトランスフォーマーは$\mathsf{AC}^0$関数の厳密なサブセットのみを計算し、停止トークンの多項式数を追加することでクラス全体を表現できる。
対数精度変換器の場合、停止トークンを追加することで、既知の上限値に一致する$\mathsf{TC}^0$に相当する表現性が得られることを示す。
実証的に,2層型因果マスク型トランスフォーマーは,停止トークンを供給した場合にパリティを学習できることを実証した。
本研究は, 従来の経験的発見に対する厳密な理論的説明を提供し, ポーズトークンが幅, 深さ, 数値的精度とどのように相互作用するかを明らかにし, それらを異なるメカニズムとして位置づけ, トランスフォーマー推論の強化に寄与する。
関連論文リスト
- Let's Think Dot by Dot: Hidden Computation in Transformer Language Models [30.972412126012884]
言語モデルの連鎖応答は、ほとんどのベンチマークのパフォーマンスを改善する。
変換器は、2つの難解なアルゴリズムタスクを解くための思考の連鎖の代わりに無意味なフィラートークンを使用できることを示す。
フィラートークンを使用する学習は困難であり、収束するためには、具体的で密集した監督が必要である。
論文 参考訳(メタデータ) (2024-04-24T09:30:00Z) - Counting Like Transformers: Compiling Temporal Counting Logic Into Softmax Transformers [8.908747084128397]
時間カウントロジックの $textsfK_textt$[#] と RASP の $textsfC-RASP$ を紹介します。
それらが互いに等価であることを示し、それらが結合されていない入力サイズを持つ将来のマスキング型ソフトアテンショントランスの形式的表現性に最もよく知られた下界であることを示す。
論文 参考訳(メタデータ) (2024-04-05T20:36:30Z) - Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - Dynamic Token-Pass Transformers for Semantic Segmentation [22.673910995773262]
セマンティックセグメンテーションのための動的トークン・パス・ビジョン・トランスフォーマー(DoViT)を導入する。
DoViTは、部分的に簡単なトークンを自己注意計算から徐々に停止させ、停止基準を満たすまでハードトークンを前進させ続ける。
提案手法は, 約40%$sim$ 60% FLOPsを低減し, mIoUの低下は, 各種セグメンテーション変圧器の0.8%以内である。
論文 参考訳(メタデータ) (2023-08-03T06:14:24Z) - Dynamic Token Pruning in Plain Vision Transformers for Semantic
Segmentation [18.168932826183024]
本研究では,意味的セグメンテーションのためのトークンの早期終了に基づく動的トークン処理(DToP)手法を提案する。
実験により、提案したDToPアーキテクチャは、現在のセマンティックセグメンテーション手法の計算コストを平均20%から35%削減することを示唆している。
論文 参考訳(メタデータ) (2023-08-02T09:40:02Z) - Temporal Latent Bottleneck: Synthesis of Fast and Slow Processing
Mechanisms in Sequence Learning [85.95599675484341]
リカレントニューラルネットワークは、時間的に圧縮された表現の学習に対して強い誘導バイアスを持つ。
変換器は時間的に圧縮された表現を学習する際の帰納的バイアスがほとんどない。
論文 参考訳(メタデータ) (2022-05-30T00:12:33Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。