論文の概要: Average-Hard Attention Transformers are Constant-Depth Uniform Threshold
Circuits
- arxiv url: http://arxiv.org/abs/2308.03212v2
- Date: Mon, 21 Aug 2023 18:54:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 20:30:18.804810
- Title: Average-Hard Attention Transformers are Constant-Depth Uniform Threshold
Circuits
- Title(参考訳): 平均ハードアテンション変換器は一様閾値回路である
- Authors: Lena Strobl
- Abstract要約: 平均的注意力変換器はクラスTC0に該当する言語を認識する。
本稿は、第1結果を拡張して均一回路を生成可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have emerged as a widely used neural network model for various
natural language processing tasks. Previous research explored their
relationship with constant-depth threshold circuits, making two assumptions:
average-hard attention and logarithmic precision for internal computations
relative to input length. Merrill et al. (2022) prove that average-hard
attention transformers recognize languages that fall within the complexity
class TC0, denoting the set of languages that can be recognized by
constant-depth polynomial-size threshold circuits. Likewise, Merrill and
Sabharwal (2023) show that log-precision transformers recognize languages
within the class of uniform TC0. This shows that both transformer models can be
simulated by constant-depth threshold circuits, with the latter being more
robust due to generating a uniform circuit family. Our paper shows that the
first result can be extended to yield uniform circuits as well.
- Abstract(参考訳): トランスフォーマーは様々な自然言語処理タスクのニューラルネットワークモデルとして広く使われている。
従来の研究では、入力長に対する内部計算に対する平均的ハードアテンションと対数精度の2つの仮定を定深しきい値回路との関係について検討していた。
Merrill et al. (2022) は、平均強注意変換器が複雑性クラスTC0に該当する言語を認識し、定数深さ多項式サイズのしきい値回路で認識できる言語の集合を示すことを証明している。
同様に、merrill and sabharwal (2023) は、log-precision transformersが一様tc0クラス内の言語を認識することを示した。
このことは、両トランスモデルが一定の深さのしきい値回路でシミュレート可能であることを示し、後者は均一な回路ファミリを生成するため、より堅牢であることを示している。
本論文では,最初の結果が一様回路にも拡張可能であることを示す。
関連論文リスト
- Transformers, parallel computation, and logarithmic depth [33.659870765923884]
我々は,一定数の自己注意層が,大規模並列計算の通信ラウンドを効率よくシミュレートし,シミュレートできることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:54:55Z) - Recurrent Transformers with Dynamic Halt [76.62673276574668]
本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。
本稿では,これらの手法を拡張し,組み合わせるための新しい手法を提案し,検討する。
論文 参考訳(メタデータ) (2024-02-01T19:47:31Z) - The Expressive Power of Transformers with Chain of Thought [35.25166532364007]
実際には、トランスフォーマーの推論は、答える前に中間トークン列を生成および条件にすることで改善することができる。
答えはYESであるが、増加量は中間生成量に大きく依存する。
また, 線形ステップでは, コンテクストに敏感な言語に変換器デコーダを配置し, 解解時間問題のクラスを正確に認識させる。
論文 参考訳(メタデータ) (2023-10-11T22:35:18Z) - Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - The Parallelism Tradeoff: Limitations of Log-Precision Transformers [29.716269397142973]
入力トークン数における算術精度が対数的である変換器は、定数深さの対数空間一様しきい値回路でシミュレートできることを示す。
これは、複雑性理論の既知の結果を用いた変圧器のパワーに関する洞察を与える。
論文 参考訳(メタデータ) (2022-07-02T03:49:34Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - Iterative Decoding for Compositional Generalization in Transformers [5.269770493488338]
シーケンシャル・ツー・シークエンス・ラーニングでは、トランスフォーマーは極端に長い例に対して正しい出力を予測できないことが多い。
本稿では,Seq2seq学習に代わる反復復号法を提案する。
反復復号により訓練されたトランスフォーマーはPCFGデータセット上でセq2seqよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-08T14:52:25Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z) - On the Ability and Limitations of Transformers to Recognize Formal
Languages [9.12267978757844]
カウンター言語のサブクラスのためのトランスフォーマーの構築を提供する。
トランスフォーマーはこのサブクラスでうまく機能し、それらの学習メカニズムは我々の構成と強く相関している。
おそらく、LSTMとは対照的に、Transformerはパフォーマンスが低下する正規言語のサブセットでのみ動作する。
論文 参考訳(メタデータ) (2020-09-23T17:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。