Fugu-MT 論文翻訳(概要): Transformers as Transducers

論文の概要: Transformers as Transducers

arxiv url: http://arxiv.org/abs/2404.02040v2
Date: Tue, 01 Oct 2024 20:05:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.672356
Title: Transformers as Transducers
Title（参考訳）: トランスデューサとしてのトランスフォーマー
Authors: Lena Strobl, Dana Angluin, David Chiang, Jonathan Rawski, Ashish Sabharwal,
Abstract要約: 変換器のシーケンス・ツー・シーケンスマッピング能力について有限変換器に関連付けることにより検討する。既存のブール変種であるB-RASPをシーケンス・ツー・シーケンス関数に拡張し、一階有理関数を正確に計算することを示す。マスク付き平均的注意変換器はS-RASPをシミュレートできることを示す。
参考スコア（独自算出の注目度）: 27.48483887144685
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the sequence-to-sequence mapping capacity of transformers by relating them to finite transducers, and find that they can express surprisingly large classes of transductions. We do so using variants of RASP, a programming language designed to help people "think like transformers," as an intermediate representation. We extend the existing Boolean variant B-RASP to sequence-to-sequence functions and show that it computes exactly the first-order rational functions (such as string rotation). Then, we introduce two new extensions. B-RASP[pos] enables calculations on positions (such as copying the first half of a string) and contains all first-order regular functions. S-RASP adds prefix sum, which enables additional arithmetic operations (such as squaring a string) and contains all first-order polyregular functions. Finally, we show that masked average-hard attention transformers can simulate S-RASP.
Abstract（参考訳）: 変圧器のシーケンス・ツー・シーケンスマッピング能力について有限トランスデューサに関連付けて検討し,驚くほど大きなトランスダクションのクラスを表現できることを見出した。私たちは、中間表現として、人々が"トランスフォーマーのように考える"ために設計されたプログラミング言語であるRASPの亜種を使っています。既存のブール変量 B-RASP をシーケンス・ツー・シーケンス関数に拡張し、一階有理関数(弦回転など)を正確に計算することを示す。次に、2つの新しい拡張を紹介します。 B-RASP[pos]は、(文字列の前半をコピーするなど)位置の計算を可能にし、全ての一階正則関数を含む。 S-RASPはプレフィックス和を追加し、(文字列のスクアリングのような)算術演算を可能とし、全ての一階多型関数を含む。最後に、マスク付き平均的注意変換器がS-RASPをシミュレート可能であることを示す。

関連論文リスト

Transformers are Efficient Compilers, Provably [11.459397066286822]
トランスフォーマーベースの大規模言語モデル(LLM)は、幅広い言語関連タスクにおいて驚くほど堅牢なパフォーマンスを示している。本稿では,表現力の観点から,トランスフォーマーをコンパイラとして用いることの正式な調査に向けて第一歩を踏み出す。代表言語であるMini-Huskyを導入し、現代のC言語の特徴をカプセル化する。
論文参考訳（メタデータ） (2024-10-07T20:31:13Z)
Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文参考訳（メタデータ） (2024-10-06T06:04:23Z)
Counting Like Transformers: Compiling Temporal Counting Logic Into Softmax Transformers [8.908747084128397]
時間カウントロジックの $textsfK_textt$[#] と RASP の $textsfC-RASP$ を紹介します。それらが互いに等価であることを示し、それらが結合されていない入力サイズを持つ将来のマスキング型ソフトアテンショントランスの形式的表現性に最もよく知られた下界であることを示す。
論文参考訳（メタデータ） (2024-04-05T20:36:30Z)
Prompting a Pretrained Transformer Can Be a Universal Approximator [105.59562522323274]
従来考えられていたよりもはるかに小さな事前学習モデルでは,プレフィックスの場合には普遍近似が可能であることを示す。また、関数を所望の精度に近似するのに必要なプレフィックスの長さにジャクソン型境界を与える。
論文参考訳（メタデータ） (2024-02-22T18:12:48Z)
Investigating Recurrent Transformers with Dynamic Halt [64.862738244735]
本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。提案手法を拡張・結合する新しい手法を提案し,検討する。
論文参考訳（メタデータ） (2024-02-01T19:47:31Z)
Can Transformers Learn Sequential Function Classes In Context? [0.0]
インコンテキスト学習(ICL)は、NLPにおけるトランスフォーマーモデルの能力に革命をもたらした。我々は,新しいスライディングウィンドウシーケンシャル関数クラスを導入し,GPT-2アーキテクチャを用いた玩具サイズのトランスフォーマーを用いて実験を行った。解析により,これらのモデルが非テキストシーケンシャル関数クラスでトレーニングされた場合,実際にICLを活用できることが示唆された。
論文参考訳（メタデータ） (2023-12-19T22:57:13Z)
Sumformer: Universal Approximation for Efficient Transformers [2.4832703558223725]
本稿では,シーケンス・ツー・シーケンス関数を普遍的に近似できる新しいシンプルなアーキテクチャであるSumformerを紹介する。我々はトランスフォーマーの新しい証明を導き、一つの注意層だけが普遍的な近似に十分であることを示す。
論文参考訳（メタデータ） (2023-07-05T13:59:35Z)
Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。 RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文参考訳（メタデータ） (2022-05-26T14:51:30Z)
Glushkov's construction for functional subsequential transducers [91.3755431537592]
グルシコフの構成は多くの興味深い性質を持ち、トランスデューサに適用するとさらに明らかになる。正規表現の特別な風味を導入し、効率よく$epsilon$-free 機能的次数重み付き有限状態トランスデューサに変換することができる。
論文参考訳（メタデータ） (2020-08-05T17:09:58Z)
Multi-level Head-wise Match and Aggregation in Transformer for Textual Sequence Matching [87.97265483696613]
そこで本研究では,複数のレベルにおける頭部のマッチング表現を学習することで,Transformerとのシーケンスペアマッチングを新たに提案する。実験の結果,提案手法は複数のタスクにおいて新しい最先端性能を実現することができることがわかった。
論文参考訳（メタデータ） (2020-01-20T20:02:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。