論文の概要: Counting Like Transformers: Compiling Temporal Counting Logic Into Softmax Transformers
- arxiv url: http://arxiv.org/abs/2404.04393v1
- Date: Fri, 5 Apr 2024 20:36:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 21:28:03.999126
- Title: Counting Like Transformers: Compiling Temporal Counting Logic Into Softmax Transformers
- Title(参考訳): Counting Like Transformer: 時間数論理をSoftmax Transformerにコンパイルする
- Authors: Andy Yang, David Chiang,
- Abstract要約: 時間カウントロジックの $textbfK_textt$[#] と RASP の $textbfC-RASP$ を紹介します。
それらが互いに等価であることを示し、これらが共に、将来のマスキング型ソフトアテンショントランスの形式的表現性に最もよく知られた下界であることを示す。
- 参考スコア(独自算出の注目度): 8.908747084128397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deriving formal bounds on the expressivity of transformers, as well as studying transformers that are constructed to implement known algorithms, are both effective methods for better understanding the computational power of transformers. Towards both ends, we introduce the temporal counting logic $\textbf{K}_\text{t}$[#] alongside the RASP variant $\textbf{C-RASP}$. We show they are equivalent to each other, and that together they are the best-known lower bound on the formal expressivity of future-masked soft attention transformers with unbounded input size. We prove this by showing all $\textbf{K}_\text{t}$[#] formulas can be compiled into these transformers. As a case study, we demonstrate on paper how to use $\textbf{C-RASP}$ to construct simple transformer language models that, using greedy decoding, can only generate sentences that have given properties formally specified in $\textbf{K}_\text{t}$[#].
- Abstract(参考訳): 変圧器の表現性に関する形式的境界の導出と、既知のアルゴリズムを実装するために構築された変圧器の研究はどちらも、変圧器の計算能力をよりよく理解するための効果的な方法である。
両端に向かって、時空カウントロジック $\textbf{K}_\text{t}$[#] と RASP の変種 $\textbf{C-RASP}$ を紹介します。
それらが互いに等価であることを示し、それらが共に、有界な入力サイズを持つ将来のマスキング型ソフトアテンショントランスの形式的表現性に最もよく知られた下界であることを示す。
すべての$\textbf{K}_\text{t}$[#]式をこれらの変換子にコンパイルできることを示す。
ケーススタディとして、greedyデコーディングを使用して、$\textbf{K}_\text{t}$[#]で正式に指定されたプロパティを持つ文しか生成できない、単純なトランスフォーマー言語モデルを構築するために、$\textbf{C-RASP}$を使用する方法を示す。
関連論文リスト
- Transformers Can Represent $n$-gram Language Models [56.06361029539347]
本稿では,言語モデルの単純かつ歴史的なクラスであるトランスフォーマーLMと$n$-gram LMの関係に注目した。
ハードまたはスパースアテンション機構を用いたトランスフォーマーLMは,任意の$n$-gram LMを正確に表現できることを示す。
論文 参考訳(メタデータ) (2024-04-23T12:51:37Z) - Transformers as Transducers [27.48483887144685]
変換器のシーケンス・ツー・シーケンスマッピング能力について検討する。
驚くほど大きなトランスダクションのクラスを表現できることがわかりました。
トランスデコーダがチューリング完全であるという新しい証明。
論文 参考訳(メタデータ) (2024-04-02T15:34:47Z) - Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - The Expressive Power of Transformers with Chain of Thought [29.839710738657203]
実際には、トランスフォーマーは「思考の連鎖」や「スクラッチパッド」を使用することで改善できる。
答えはYESであるが、増加量は中間生成量に大きく依存する。
また, 線形ステップでは, コンテクストに敏感な言語に変換器デコーダを配置することが示唆された。
論文 参考訳(メタデータ) (2023-10-11T22:35:18Z) - Learning Transformer Programs [78.9509560355733]
設計によって機械的に解釈可能なトランスフォーマーの訓練手順を導入する。
人書きプログラムをTransformerにコンパイルする代わりに、勾配に基づく最適化を用いてトレーニングできる改良されたTransformerを設計する。
Transformer Programsは適切なソリューションを自動的に見つけ、同等のサイズの標準のTransformerと同等に動作する。
論文 参考訳(メタデータ) (2023-06-01T20:27:01Z) - Tracr: Compiled Transformers as a Laboratory for Interpretability [15.76027393879609]
人間の読みやすいプログラムをデコーダのみのトランスフォーマーモデルに"コンパイル"する方法を示す。
コンパイラであるTrcrは、既知の構造を持つモデルを生成する。
マルチステップアルゴリズムを実行する変換器の「重ね合わせ」について検討する。
論文 参考訳(メタデータ) (2023-01-12T14:59:19Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。