Fugu-MT 論文翻訳(概要): Counting Like Transformers: Compiling Temporal Counting Logic Into Softmax Transformers

論文の概要: Counting Like Transformers: Compiling Temporal Counting Logic Into Softmax Transformers

arxiv url: http://arxiv.org/abs/2404.04393v1
Date: Fri, 5 Apr 2024 20:36:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 21:28:03.999126
Title: Counting Like Transformers: Compiling Temporal Counting Logic Into Softmax Transformers
Title（参考訳）: Counting Like Transformer: 時間数論理をSoftmax Transformerにコンパイルする
Authors: Andy Yang, David Chiang,
Abstract要約: 時間カウントロジックの $textbfK_textt$[#] と RASP の $textbfC-RASP$ を紹介します。それらが互いに等価であることを示し、これらが共に、将来のマスキング型ソフトアテンショントランスの形式的表現性に最もよく知られた下界であることを示す。
参考スコア（独自算出の注目度）: 8.908747084128397
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deriving formal bounds on the expressivity of transformers, as well as studying transformers that are constructed to implement known algorithms, are both effective methods for better understanding the computational power of transformers. Towards both ends, we introduce the temporal counting logic $\textbf{K}_\text{t}$[#] alongside the RASP variant $\textbf{C-RASP}$. We show they are equivalent to each other, and that together they are the best-known lower bound on the formal expressivity of future-masked soft attention transformers with unbounded input size. We prove this by showing all $\textbf{K}_\text{t}$[#] formulas can be compiled into these transformers. As a case study, we demonstrate on paper how to use $\textbf{C-RASP}$ to construct simple transformer language models that, using greedy decoding, can only generate sentences that have given properties formally specified in $\textbf{K}_\text{t}$[#].
Abstract（参考訳）: 変圧器の表現性に関する形式的境界の導出と、既知のアルゴリズムを実装するために構築された変圧器の研究はどちらも、変圧器の計算能力をよりよく理解するための効果的な方法である。両端に向かって、時空カウントロジック $\textbf{K}_\text{t}$[#] と RASP の変種 $\textbf{C-RASP}$ を紹介します。それらが互いに等価であることを示し、それらが共に、有界な入力サイズを持つ将来のマスキング型ソフトアテンショントランスの形式的表現性に最もよく知られた下界であることを示す。すべての$\textbf{K}_\text{t}$[#]式をこれらの変換子にコンパイルできることを示す。ケーススタディとして、greedyデコーディングを使用して、$\textbf{K}_\text{t}$[#]で正式に指定されたプロパティを持つ文しか生成できない、単純なトランスフォーマー言語モデルを構築するために、$\textbf{C-RASP}$を使用する方法を示す。

関連論文リスト

Two Heads Are Better than One: Simulating Large Transformers with Small Ones [3.514389461266844]
長い入力シーケンスを持つ変換器は、短い入力シーケンスしか持たない変換器で効率的にシミュレートできることを示す。次に、平均ケース入力、スライディングウインドウマスキング、アテンションシンクを含む様々な自然シナリオにおいて、最適数$O(N/M)$の小さな変圧器が十分であることを示す。
論文参考訳（メタデータ） (2025-06-13T20:47:12Z)
Exact Expressive Power of Transformers with Padding [29.839710738657203]
長さ$n$の入力に対して$O(logd n)$ループするパッド付き変換器は、適度に並列化可能な問題のクラス$mathsfTCd$を正確に認識する。この結果から, パディングとループのさらなる探索が, 思考の連鎖に対する並列化可能な代替手段として動機づけられた。
論文参考訳（メタデータ） (2025-05-25T02:52:15Z)
Constant Bit-size Transformers Are Turing Complete [8.38684825915246]
任意の長さの入力で動くチューリングマシンは、定ビットサイズの変圧器でシミュレートできることを示す。提案手法は,チューリング完全計算モデルであるPostマシンのシミュレーションに依存する。
論文参考訳（メタデータ） (2025-05-22T02:45:38Z)
Concise One-Layer Transformers Can Do Function Evaluation (Sometimes) [1.157192696857674]
本稿では,変圧器の表現能力に関する研究に寄与する。任意の関数を与えられた引数で$[n]$から$[n]$に評価する基本的な計算タスクを実行する能力に焦点を当てる。
論文参考訳（メタデータ） (2025-03-28T01:40:23Z)
Extracting Finite State Machines from Transformers [0.3069335774032178]
機械的解釈可能性の観点から正規言語で訓練された変圧器の訓練可能性について検討する。有限個の記号が状態を決定するとき, 変圧器の訓練性に対して, より強い下界を経験的に見出す。機械的な洞察により、1層トランスフォーマーが優れた長さの一般化で学習できる正規言語を特徴付けることができる。
論文参考訳（メタデータ） (2024-10-08T13:43:50Z)
Transformers learn variable-order Markov chains in-context [10.210508887119643]
可変次マルコフ連鎖(VOMC)のICLを,データ圧縮の一形態として言語モデルを用いて検討する。そこで本研究では, 2層変圧器は変圧器のICL性能に適合することを示した。
論文参考訳（メタデータ） (2024-10-07T21:04:53Z)
Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文参考訳（メタデータ） (2024-10-03T21:21:02Z)
Higher-Order Transformer Derivative Estimates for Explicit Pathwise Learning Guarantees [9.305677878388664]
本稿では, 変圧器モデルに対するすべての順序の高階微分を正確に推定することにより, 文献のギャップを埋める。我々は,注目ヘッド数,各変圧器ブロックの深さと幅,正規化層数の観点から,すべての定数の完全明示的な推定値を得る。実世界のトランスフォーマーは、1つのマルコフ過程の軌道のサンプルから$O(operatornamepolylog(N/sqrtN)$で学習することができる。
論文参考訳（メタデータ） (2024-05-26T13:19:32Z)
Transformers Can Represent $n$-gram Language Models [56.06361029539347]
本稿では,言語モデルの単純かつ歴史的なクラスであるトランスフォーマーLMと$n$-gram LMの関係に注目した。ハードまたはスパースアテンション機構を用いたトランスフォーマーLMは,任意の$n$-gram LMを正確に表現できることを示す。
論文参考訳（メタデータ） (2024-04-23T12:51:37Z)
AlgoFormer: An Efficient Transformer Framework with Algorithmic Structures [80.28359222380733]
アルゴリズム機能を備えたトランスフォーマーを実現するために,AlgoFormerと呼ばれる新しいトランスフォーマーフレームワークを設計する。特に、人間の設計した学習アルゴリズムの構造に触発されて、我々のトランスフォーマーフレームワークは、タスク前処理に責任を持つ事前変換器で構成されています。いくつかの理論的および実証的な結果は、設計されたトランスフォーマーがアルゴリズム表現と学習を行う可能性があることを示すために提示される。
論文参考訳（メタデータ） (2024-02-21T07:07:54Z)
Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文参考訳（メタデータ） (2024-02-20T10:11:03Z)
The Expressive Power of Transformers with Chain of Thought [29.839710738657203]
実際には、トランスフォーマーは「思考の連鎖」や「スクラッチパッド」を使用することで改善できる。答えはYESであるが、増加量は中間生成量に大きく依存する。また, 線形ステップでは, コンテクストに敏感な言語に変換器デコーダを配置することが示唆された。
論文参考訳（メタデータ） (2023-10-11T22:35:18Z)
Learning Transformer Programs [78.9509560355733]
設計によって機械的に解釈可能なトランスフォーマーの訓練手順を導入する。人書きプログラムをTransformerにコンパイルする代わりに、勾配に基づく最適化を用いてトレーニングできる改良されたTransformerを設計する。 Transformer Programsは適切なソリューションを自動的に見つけ、同等のサイズの標準のTransformerと同等に動作する。
論文参考訳（メタデータ） (2023-06-01T20:27:01Z)
SepTr: Separable Transformer for Audio Spectrogram Processing [74.41172054754928]
分離可能トランス (Separable Transformer, SepTr) と呼ばれる新しい視覚変換器アーキテクチャを提案する。 SepTrは2つのトランスフォーマーブロックを逐次的に使用し、1つは同じ周波数ビン内のトークンに、もう1つは同じ時間間隔でトークンに出席する。我々は3つのベンチマークデータセットで実験を行い、我々のアーキテクチャが従来のビジョントランスフォーマーや他の最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-03-17T19:48:43Z)
On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文参考訳（メタデータ） (2021-06-30T17:09:47Z)
Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文参考訳（メタデータ） (2021-06-04T04:04:10Z)
Segatron: Segment-Aware Transformer for Language Modeling and Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。 WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文参考訳（メタデータ） (2020-04-30T17:38:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。