論文の概要: Parity, Sensitivity, and Transformers
- arxiv url: http://arxiv.org/abs/2602.05896v1
- Date: Thu, 05 Feb 2026 17:14:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.074856
- Title: Parity, Sensitivity, and Transformers
- Title(参考訳): 親性, 感受性, 変圧器
- Authors: Alexander Kozachinskiy, Tomasz Steifer, Przemysław Wałȩga,
- Abstract要約: ソフトマックス,長さ非依存かつ有界な位置符号化,レイヤノルムを伴わず,因果マスキングを伴わずに動作可能なPARITY変換器を新たに構築する。
また、1つのレイヤと1つのヘッドだけでは実行できないことも示しています。
- 参考スコア(独自算出の注目度): 47.03592484094856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transformer architecture is almost a decade old. Despite that, we still have a limited understanding of what this architecture can or cannot compute. For instance, can a 1-layer transformer solve PARITY -- or more generally -- which kinds of transformers can do it? Known constructions for PARITY have at least 2 layers and employ impractical features: either a length-dependent positional encoding, or hardmax, or layernorm without the regularization parameter, or they are not implementable with causal masking. We give a new construction of a transformer for PARITY with softmax, length-independent and polynomially bounded positional encoding, no layernorm, working both with and without causal masking. We also give the first lower bound for transformers solving PARITY -- by showing that it cannot be done with only one layer and one head.
- Abstract(参考訳): トランスフォーマーアーキテクチャはほぼ10年前です。
それでも、このアーキテクチャが何を計算できるのか、あるいはできないのかについては、まだ限定的な理解しかありません。
例えば、1層トランスはPARITY(あるいはもっと一般的に)を解けるだろうか?
PARITYの既知の構造は、少なくとも2つの層を持ち、非現実的な特徴(長さ依存的な位置符号化、ハードマックス、正規化パラメータを持たない層ノルム、あるいは因果マスキングでは実装できない)を用いる。
ソフトマックス,長さ独立および多項式有界な位置符号化,層ノルムを伴わず,因果マスキングを伴わずに動作可能なPARITY変換器を新たに構築する。
また、PARITYを解くトランスフォーマーに対して、最初の下位境界を与えます。
関連論文リスト
- Transformers without Normalization [58.778767721826206]
トランスフォーマーの正規化レイヤのドロップイン置換として、DyT($x$) = tanh(alpha $x$)$という要素演算式であるDynamic Tanh(DyT)を導入する。
我々は、認識から生成、教師付き学習、教師付き学習、コンピュータビジョンから言語モデルまで、様々な環境において、DyTを用いたトランスフォーマーの有効性を検証する。
論文 参考訳(メタデータ) (2025-03-13T17:59:06Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - The Expressive Power of Transformers with Chain of Thought [29.839710738657203]
実際には、トランスフォーマーは「思考の連鎖」や「スクラッチパッド」を使用することで改善できる。
答えはYESであるが、増加量は中間生成量に大きく依存する。
また, 線形ステップでは, コンテクストに敏感な言語に変換器デコーダを配置することが示唆された。
論文 参考訳(メタデータ) (2023-10-11T22:35:18Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。