論文の概要: Transformers as Transducers
- arxiv url: http://arxiv.org/abs/2404.02040v2
- Date: Tue, 01 Oct 2024 20:05:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:16:35.286586
- Title: Transformers as Transducers
- Title(参考訳): トランスデューサとしてのトランスフォーマー
- Authors: Lena Strobl, Dana Angluin, David Chiang, Jonathan Rawski, Ashish Sabharwal,
- Abstract要約: 変換器のシーケンス・ツー・シーケンスマッピング能力について有限変換器に関連付けることにより検討する。
既存のブール変種であるB-RASPをシーケンス・ツー・シーケンス関数に拡張し、一階有理関数を正確に計算することを示す。
マスク付き平均的注意変換器はS-RASPをシミュレートできることを示す。
- 参考スコア(独自算出の注目度): 27.48483887144685
- License:
- Abstract: We study the sequence-to-sequence mapping capacity of transformers by relating them to finite transducers, and find that they can express surprisingly large classes of transductions. We do so using variants of RASP, a programming language designed to help people "think like transformers," as an intermediate representation. We extend the existing Boolean variant B-RASP to sequence-to-sequence functions and show that it computes exactly the first-order rational functions (such as string rotation). Then, we introduce two new extensions. B-RASP[pos] enables calculations on positions (such as copying the first half of a string) and contains all first-order regular functions. S-RASP adds prefix sum, which enables additional arithmetic operations (such as squaring a string) and contains all first-order polyregular functions. Finally, we show that masked average-hard attention transformers can simulate S-RASP.
- Abstract(参考訳): 変圧器のシーケンス・ツー・シーケンスマッピング能力について有限トランスデューサに関連付けて検討し,驚くほど大きなトランスダクションのクラスを表現できることを見出した。
私たちは、中間表現として、人々が"トランスフォーマーのように考える"ために設計されたプログラミング言語であるRASPの亜種を使っています。
既存のブール変量 B-RASP をシーケンス・ツー・シーケンス関数に拡張し、一階有理関数(弦回転など)を正確に計算することを示す。
次に、2つの新しい拡張を紹介します。
B-RASP[pos]は、(文字列の前半をコピーするなど)位置の計算を可能にし、全ての一階正則関数を含む。
S-RASPはプレフィックス和を追加し、(文字列のスクアリングのような)算術演算を可能とし、全ての一階多型関数を含む。
最後に、マスク付き平均的注意変換器がS-RASPをシミュレート可能であることを示す。
関連論文リスト
- On the Expressive Power of a Variant of the Looped Transformer [83.30272757948829]
我々はアルゴリズム能力でトランスフォーマーを強化するために、AlgoFormerと呼ばれる新しいトランスフォーマーブロックを設計する。
提案したAlgoFormerは、同じ数のパラメータを使用する場合、アルゴリズム表現においてはるかに高い精度を達成することができる。
いくつかの理論的および実証的な結果は、設計されたトランスフォーマーが、人間設計のアルゴリズムよりも賢い可能性があることを示している。
論文 参考訳(メタデータ) (2024-02-21T07:07:54Z) - Can Transformers Learn Sequential Function Classes In Context? [0.0]
インコンテキスト学習(ICL)は、NLPにおけるトランスフォーマーモデルの能力に革命をもたらした。
我々は,新しいスライディングウィンドウシーケンシャル関数クラスを導入し,GPT-2アーキテクチャを用いた玩具サイズのトランスフォーマーを用いて実験を行った。
解析により,これらのモデルが非テキストシーケンシャル関数クラスでトレーニングされた場合,実際にICLを活用できることが示唆された。
論文 参考訳(メタデータ) (2023-12-19T22:57:13Z) - Are Transformers with One Layer Self-Attention Using Low-Rank Weight
Matrices Universal Approximators? [37.820617032391404]
低ランクの重み付き自己注意層が入力シーケンス全体のコンテキストを完全にキャプチャする能力を持っていることを示す。
単層および単頭トランスフォーマーは、有限サンプルに対する記憶能力を持ち、2つのフィードフォワードニューラルネットワークを持つ1つの自己アテンション層からなるトランスフォーマーは、コンパクトドメイン上の連続置換同変関数の普遍近似器である。
論文 参考訳(メタデータ) (2023-07-26T08:07:37Z) - Sumformer: Universal Approximation for Efficient Transformers [2.4832703558223725]
本稿では,シーケンス・ツー・シーケンス関数を普遍的に近似できる新しいシンプルなアーキテクチャであるSumformerを紹介する。
我々はトランスフォーマーの新しい証明を導き、一つの注意層だけが普遍的な近似に十分であることを示す。
論文 参考訳(メタデータ) (2023-07-05T13:59:35Z) - Approximation and Estimation Ability of Transformers for
Sequence-to-Sequence Functions with Infinite Dimensional Input [50.83356836818667]
無限次元入力を持つシーケンス・ツー・シーケンス関数として変換器の近似と推定能力について検討する。
我々の理論的結果は、高次元データに対する変換器の実用的成功を支持する。
論文 参考訳(メタデータ) (2023-05-30T02:44:49Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Transformers Generalize DeepSets and Can be Extended to Graphs and
Hypergraphs [15.844680924751984]
我々は、任意の順序置換不変データ(集合、グラフ、ハイパーグラフ)への変換器の一般化を提案する。
特に,カーネルアテンションを持つスパース2階変圧器は,メッセージパッシング操作よりも理論的に表現力が高いことを示す。
我々のモデルは、大規模グラフ回帰および集合-to-(ハイパー)グラフ予測タスクにおいて、不変性やメッセージパスグラフニューラルネットワークよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-10-27T13:20:05Z) - s2s-ft: Fine-Tuning Pretrained Transformer Encoders for
Sequence-to-Sequence Learning [47.30689555136054]
条件付き生成タスクに予めトレーニングされたトランスフォーマーを採用するシーケンス・ツー・シーケンスの微調整ツールキット s2s-ft を提案する。
S2s-ftは抽象的な要約と質問生成のベンチマークで高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-26T12:45:34Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - Glushkov's construction for functional subsequential transducers [91.3755431537592]
グルシコフの構成は多くの興味深い性質を持ち、トランスデューサに適用するとさらに明らかになる。
正規表現の特別な風味を導入し、効率よく$epsilon$-free 機能的次数重み付き有限状態トランスデューサに変換することができる。
論文 参考訳(メタデータ) (2020-08-05T17:09:58Z) - Multi-level Head-wise Match and Aggregation in Transformer for Textual
Sequence Matching [87.97265483696613]
そこで本研究では,複数のレベルにおける頭部のマッチング表現を学習することで,Transformerとのシーケンスペアマッチングを新たに提案する。
実験の結果,提案手法は複数のタスクにおいて新しい最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2020-01-20T20:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。