論文の概要: Average-Hard Attention Transformers are Constant-Depth Uniform Threshold
Circuits
- arxiv url: http://arxiv.org/abs/2308.03212v2
- Date: Mon, 21 Aug 2023 18:54:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 20:30:18.804810
- Title: Average-Hard Attention Transformers are Constant-Depth Uniform Threshold
Circuits
- Title(参考訳): 平均ハードアテンション変換器は一様閾値回路である
- Authors: Lena Strobl
- Abstract要約: 平均的注意力変換器はクラスTC0に該当する言語を認識する。
本稿は、第1結果を拡張して均一回路を生成可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have emerged as a widely used neural network model for various
natural language processing tasks. Previous research explored their
relationship with constant-depth threshold circuits, making two assumptions:
average-hard attention and logarithmic precision for internal computations
relative to input length. Merrill et al. (2022) prove that average-hard
attention transformers recognize languages that fall within the complexity
class TC0, denoting the set of languages that can be recognized by
constant-depth polynomial-size threshold circuits. Likewise, Merrill and
Sabharwal (2023) show that log-precision transformers recognize languages
within the class of uniform TC0. This shows that both transformer models can be
simulated by constant-depth threshold circuits, with the latter being more
robust due to generating a uniform circuit family. Our paper shows that the
first result can be extended to yield uniform circuits as well.
- Abstract(参考訳): トランスフォーマーは様々な自然言語処理タスクのニューラルネットワークモデルとして広く使われている。
従来の研究では、入力長に対する内部計算に対する平均的ハードアテンションと対数精度の2つの仮定を定深しきい値回路との関係について検討していた。
Merrill et al. (2022) は、平均強注意変換器が複雑性クラスTC0に該当する言語を認識し、定数深さ多項式サイズのしきい値回路で認識できる言語の集合を示すことを証明している。
同様に、merrill and sabharwal (2023) は、log-precision transformersが一様tc0クラス内の言語を認識することを示した。
このことは、両トランスモデルが一定の深さのしきい値回路でシミュレート可能であることを示し、後者は均一な回路ファミリを生成するため、より堅牢であることを示している。
本論文では,最初の結果が一様回路にも拡張可能であることを示す。
関連論文リスト
- Extracting Finite State Machines from Transformers [0.3069335774032178]
機械的解釈可能性の観点から正規言語で訓練された変圧器の訓練可能性について検討する。
有限個の記号が状態を決定するとき, 変圧器の訓練性に対して, より強い下界を経験的に見出す。
機械的な洞察により、1層トランスフォーマーが優れた長さの一般化で学習できる正規言語を特徴付けることができる。
論文 参考訳(メタデータ) (2024-10-08T13:43:50Z) - Transformers are Efficient Compilers, Provably [11.459397066286822]
トランスフォーマーベースの大規模言語モデル(LLM)は、幅広い言語関連タスクにおいて驚くほど堅牢なパフォーマンスを示している。
本稿では,表現力の観点から,トランスフォーマーをコンパイラとして用いることの正式な調査に向けて第一歩を踏み出す。
代表言語であるMini-Huskyを導入し、現代のC言語の特徴をカプセル化する。
論文 参考訳(メタデータ) (2024-10-07T20:31:13Z) - Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - Circuit Transformer: End-to-end Circuit Design by Predicting the Next Gate [20.8279111910994]
言語はシーケンシャルなシンボルを通して表現する卓越した人間の能力であり、近年の大規模言語モデル(LLM)の進歩によって計算的に習得されている。
LLMは理解と推論において前例のない能力を示した。
回路も十分に大きな「回路モデル」でマスターでき、次の論理ゲートを単に予測することで電子設計タスクを克服できるだろうか?
論文 参考訳(メタデータ) (2024-03-14T03:24:14Z) - Transformers, parallel computation, and logarithmic depth [33.659870765923884]
我々は,一定数の自己注意層が,大規模並列計算の通信ラウンドを効率よくシミュレートし,シミュレートできることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:54:55Z) - Investigating Recurrent Transformers with Dynamic Halt [64.862738244735]
本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。
提案手法を拡張・結合する新しい手法を提案し,検討する。
論文 参考訳(メタデータ) (2024-02-01T19:47:31Z) - Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - Iterative Decoding for Compositional Generalization in Transformers [5.269770493488338]
シーケンシャル・ツー・シークエンス・ラーニングでは、トランスフォーマーは極端に長い例に対して正しい出力を予測できないことが多い。
本稿では,Seq2seq学習に代わる反復復号法を提案する。
反復復号により訓練されたトランスフォーマーはPCFGデータセット上でセq2seqよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-08T14:52:25Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。