論文の概要: The Expressive Power of Low Precision Softmax Transformers with (Summarized) Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2605.18079v1
- Date: Mon, 18 May 2026 08:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.209488
- Title: The Expressive Power of Low Precision Softmax Transformers with (Summarized) Chain-of-Thought
- Title(参考訳): 低精度ソフトマックス変圧器の(要約)整合力
- Authors: Moritz Brösamle, Stephan Eckstein,
- Abstract要約: 変圧器の既存の表現結果は通常、ハードマックスの注意、高精度、その他のアーキテクチャの変更に依存し、実際に使用されるモデルからそれらを切り離す。
我々は,このギャップを,トランスフォーマーデコーダをソフトマックスアテンションで解析し,アクティベーションとアテンションウェイトを丸め,深さと幅をコンテキスト長と対数的に成長させることで橋渡しする。
中間段階として、3次アクティベーションを持つハードマックストランスフォーマーと、Chain-of-Thought (CoT) を用いたチューリングマシンをシミュレートした注意スコアを構築する。
- 参考スコア(独自算出の注目度): 1.9193579706947885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing expressivity results for transformers typically rely on hardmax attention, high precision, and other architectural modifications that disconnect them from the models used in practice. We bridge this gap by analyzing standard transformer decoders with softmax attention and rounding of activations and attention weights, while allowing depth and width to grow logarithmically with the context length. As an intermediate step, we construct hardmax transformers with ternary activations and well-separated attention scores that simulate Turing machines using Chain-of-Thought (CoT). This lets us convert the constructions to equivalent softmax transformers without the unrealistic parameter magnitudes or activation precision that prior approaches would require. Using the same technique, we analyze a recently proposed summarized CoT paradigm and show that it simulates Turing machines more efficiently, with model size scaling logarithmically in a space bound rather than a time bound. We empirically test predictions made by our results on a Sudoku reasoning task and find better alignment with learnability than for prior high-precision results. Our code is available at https://github.com/moritzbroe/transformer-expressivity.
- Abstract(参考訳): 変圧器の既存の表現結果は通常、ハードマックスの注意、高精度、その他のアーキテクチャの変更に依存し、実際に使用されるモデルからそれらを切り離す。
我々は,標準変圧器デコーダをソフトマックスアテンションで解析し,アクティベーションとアテンションウェイトを丸めながら,深さと幅をコンテキスト長と対数的に成長させることにより,このギャップを橋渡しする。
中間段階として、3つのアクティベーションを持つハードマックストランスフォーマーと、Chain-of-Thought (CoT) を用いたチューリングマシンをシミュレートした注意スコアを構築する。
これにより、以前のアプローチが必要とする非現実的なパラメータサイズやアクティベーション精度を使わずに、構成を等価なソフトマックス変換器に変換することができる。
同じ手法を用いて、最近提案されたCoTパラダイムを解析し、時間境界ではなく空間に対数的にスケールするモデルサイズでチューリングマシンをより効率的にシミュレートすることを示した。
本研究では,スドク推論課題における結果から得られた予測を実証的に検証し,事前の高精度な結果よりも学習可能性との整合性が良好であることを示す。
私たちのコードはhttps://github.com/moritzbroe/transformer- expressivity.comで利用可能です。
関連論文リスト
- Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z) - SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文 参考訳(メタデータ) (2021-10-22T17:57:29Z) - Predicting Attention Sparsity in Transformers [0.9786690381850356]
本稿では, 遠心注意の空間パターンを計算前に同定するモデルであるスペーサーファインダーを提案する。
我々の研究は、予測された注目グラフの間隔とリコールの間のトレードオフを広範囲に分析することで、モデル効率を研究するための新しい角度を提供する。
論文 参考訳(メタデータ) (2021-09-24T20:51:21Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。