論文の概要: Parity, Sensitivity, and Transformers
- arxiv url: http://arxiv.org/abs/2602.05896v1
- Date: Thu, 05 Feb 2026 17:14:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.074856
- Title: Parity, Sensitivity, and Transformers
- Title(参考訳): 親性, 感受性, 変圧器
- Authors: Alexander Kozachinskiy, Tomasz Steifer, Przemysław Wałȩga,
- Abstract要約: ソフトマックス,長さ非依存かつ有界な位置符号化,レイヤノルムを伴わず,因果マスキングを伴わずに動作可能なPARITY変換器を新たに構築する。
また、1つのレイヤと1つのヘッドだけでは実行できないことも示しています。
- 参考スコア(独自算出の注目度): 47.03592484094856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transformer architecture is almost a decade old. Despite that, we still have a limited understanding of what this architecture can or cannot compute. For instance, can a 1-layer transformer solve PARITY -- or more generally -- which kinds of transformers can do it? Known constructions for PARITY have at least 2 layers and employ impractical features: either a length-dependent positional encoding, or hardmax, or layernorm without the regularization parameter, or they are not implementable with causal masking. We give a new construction of a transformer for PARITY with softmax, length-independent and polynomially bounded positional encoding, no layernorm, working both with and without causal masking. We also give the first lower bound for transformers solving PARITY -- by showing that it cannot be done with only one layer and one head.
- Abstract(参考訳): トランスフォーマーアーキテクチャはほぼ10年前です。
それでも、このアーキテクチャが何を計算できるのか、あるいはできないのかについては、まだ限定的な理解しかありません。
例えば、1層トランスはPARITY(あるいはもっと一般的に)を解けるだろうか?
PARITYの既知の構造は、少なくとも2つの層を持ち、非現実的な特徴(長さ依存的な位置符号化、ハードマックス、正規化パラメータを持たない層ノルム、あるいは因果マスキングでは実装できない)を用いる。
ソフトマックス,長さ独立および多項式有界な位置符号化,層ノルムを伴わず,因果マスキングを伴わずに動作可能なPARITY変換器を新たに構築する。
また、PARITYを解くトランスフォーマーに対して、最初の下位境界を与えます。
関連論文リスト
- Two Heads Are Better than One: Simulating Large Transformers with Small Ones [3.514389461266844]
長い入力シーケンスを持つ変換器は、短い入力シーケンスしか持たない変換器で効率的にシミュレートできることを示す。
次に、平均ケース入力、スライディングウインドウマスキング、アテンションシンクを含む様々な自然シナリオにおいて、最適数$O(N/M)$の小さな変圧器が十分であることを示す。
論文 参考訳(メタデータ) (2025-06-13T20:47:12Z) - Transformers Can Overcome the Curse of Dimensionality: A Theoretical Study from an Approximation Perspective [7.069772598731282]
Transformerモデルは自然言語処理などの機械学習の様々な応用分野で広く利用されている。
本稿では、変換器によるH'older連続関数クラス $mathcalH_Qbetaleft([0,1]dtimes n,mathbbRdtimes nright)$ の近似を調査し、次元性の呪いを克服できるいくつかの変換器を構築する。
論文 参考訳(メタデータ) (2025-04-18T08:56:53Z) - Transformers without Normalization [58.778767721826206]
トランスフォーマーの正規化レイヤのドロップイン置換として、DyT($x$) = tanh(alpha $x$)$という要素演算式であるDynamic Tanh(DyT)を導入する。
我々は、認識から生成、教師付き学習、教師付き学習、コンピュータビジョンから言語モデルまで、様々な環境において、DyTを用いたトランスフォーマーの有効性を検証する。
論文 参考訳(メタデータ) (2025-03-13T17:59:06Z) - Transformers learn variable-order Markov chains in-context [10.210508887119643]
可変次マルコフ連鎖(VOMC)のICLを,データ圧縮の一形態として言語モデルを用いて検討する。
そこで本研究では, 2層変圧器は変圧器のICL性能に適合することを示した。
論文 参考訳(メタデータ) (2024-10-07T21:04:53Z) - Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。
例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文 参考訳(メタデータ) (2024-10-03T21:21:02Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - The Expressive Power of Transformers with Chain of Thought [29.839710738657203]
実際には、トランスフォーマーは「思考の連鎖」や「スクラッチパッド」を使用することで改善できる。
答えはYESであるが、増加量は中間生成量に大きく依存する。
また, 線形ステップでは, コンテクストに敏感な言語に変換器デコーダを配置することが示唆された。
論文 参考訳(メタデータ) (2023-10-11T22:35:18Z) - Are Transformers More Robust? Towards Exact Robustness Verification for
Transformers [3.2259574483835673]
本稿では,トランスフォーマーのロバスト性問題について検討する。
具体的には,Sparsemaxベースのトランスフォーマーに着目し,その最大ロバスト性をMIQCP(Mixed Quadratically Constrained Programming)問題に還元する。
次に、Sparsemaxベースのトランスフォーマーのロバスト性を従来のMLP(Multi-Layer-Perceptron)NNと比較するために、Land Departureを用いて実験を行った。
論文 参考訳(メタデータ) (2022-02-08T15:27:33Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。