論文の概要: On the Power of Saturated Transformers: A View from Circuit Complexity
- arxiv url: http://arxiv.org/abs/2106.16213v1
- Date: Wed, 30 Jun 2021 17:09:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 12:34:44.929894
- Title: On the Power of Saturated Transformers: A View from Circuit Complexity
- Title(参考訳): 飽和変圧器のパワーについて:回路複雑性の観点から
- Authors: William Merrill and Yoav Goldberg and Roy Schwartz and Noah A. Smith
- Abstract要約: 飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
- 参考スコア(独自算出の注目度): 87.20342701232869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have become a standard architecture for many NLP problems. This
has motivated theoretically analyzing their capabilities as models of language,
in order to understand what makes them successful, and what their potential
weaknesses might be. Recent work has shown that transformers with hard
attention are quite limited in capacity, and in fact can be simulated by
constant-depth circuits. However, hard attention is a restrictive assumption,
which may complicate the relevance of these results for practical transformers.
In this work, we analyze the circuit complexity of transformers with saturated
attention: a generalization of hard attention that more closely captures the
attention patterns learnable in practical transformers. We show that saturated
transformers transcend the limitations of hard-attention transformers. With
some minor assumptions, we prove that the number of bits needed to represent a
saturated transformer memory vector is $O(\log n)$, which implies saturated
transformers can be simulated by log-depth circuits. Thus, the jump from hard
to saturated attention can be understood as increasing the transformer's
effective circuit depth by a factor of $O(\log n)$.
- Abstract(参考訳): トランスフォーマーは多くのNLP問題の標準アーキテクチャとなっている。
これが理論的に言語モデルとしての能力を分析する動機となり、成功の要因と潜在的な弱点を理解できるようになった。
近年の研究では、注目度の高い変圧器はキャパシティが極めて限られており、実際に一定の深さの回路でシミュレートできることが示されている。
しかし、厳しい注意は限定的な仮定であり、実用的トランスフォーマーにおけるこれらの結果の関連性を複雑にする可能性がある。
本研究では,実用的な変圧器で学習可能な注意パターンをより密接に捉えた,集中度の高い変圧器の回路複雑性について解析する。
飽和変圧器はハードアテンション変圧器の限界を超越している。
若干の仮定で、飽和トランスフォーマーメモリベクトルを表すのに必要なビット数が$o(\log n)$であることを証明し、飽和トランスフォーマーはログ深さ回路によってシミュレートできることを示した。
したがって、ハードから飽和した注意へのジャンプは、変圧器の有効回路深さを$o(\log n)$で増加させることで理解できる。
関連論文リスト
- On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Extracting Finite State Machines from Transformers [0.3069335774032178]
機械的解釈可能性の観点から正規言語で訓練された変圧器の訓練可能性について検討する。
有限個の記号が状態を決定するとき, 変圧器の訓練性に対して, より強い下界を経験的に見出す。
機械的な洞察により、1層トランスフォーマーが優れた長さの一般化で学習できる正規言語を特徴付けることができる。
論文 参考訳(メタデータ) (2024-10-08T13:43:50Z) - Transformers are Expressive, But Are They Expressive Enough for Regression? [38.369337945109855]
この結果から,トランスフォーマーはスムーズな関数を確実に近似するのに苦労し,分割的に一定間隔の近似に頼っていることがわかった。
これらの課題に光を当てることで、トランスフォーマーの能力に関する洗練された理解を提唱する。
論文 参考訳(メタデータ) (2024-02-23T18:12:53Z) - On the Expressive Power of a Variant of the Looped Transformer [83.30272757948829]
我々はアルゴリズム能力でトランスフォーマーを強化するために、AlgoFormerと呼ばれる新しいトランスフォーマーブロックを設計する。
提案したAlgoFormerは、同じ数のパラメータを使用する場合、アルゴリズム表現においてはるかに高い精度を達成することができる。
いくつかの理論的および実証的な結果は、設計されたトランスフォーマーが、人間設計のアルゴリズムよりも賢い可能性があることを示している。
論文 参考訳(メタデータ) (2024-02-21T07:07:54Z) - The Expressive Power of Transformers with Chain of Thought [29.839710738657203]
実際には、トランスフォーマーは「思考の連鎖」や「スクラッチパッド」を使用することで改善できる。
答えはYESであるが、増加量は中間生成量に大きく依存する。
また, 線形ステップでは, コンテクストに敏感な言語に変換器デコーダを配置することが示唆された。
論文 参考訳(メタデータ) (2023-10-11T22:35:18Z) - Linear attention is (maybe) all you need (to understand transformer
optimization) [55.81555204646486]
我々は、単純だが正準化された浅部変圧器モデルの研究により、変圧器の微妙さの理解に向けて前進する。
最も重要なことは、線形化モデルがトランスフォーマーのトレーニング力学のいくつかの顕著な側面を再現できることである。
論文 参考訳(メタデータ) (2023-10-02T10:48:42Z) - The Parallelism Tradeoff: Limitations of Log-Precision Transformers [29.716269397142973]
入力トークン数における算術精度が対数的である変換器は、定数深さの対数空間一様しきい値回路でシミュレートできることを示す。
これは、複雑性理論の既知の結果を用いた変圧器のパワーに関する洞察を与える。
論文 参考訳(メタデータ) (2022-07-02T03:49:34Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。