論文の概要: Can Transformers Learn $n$-gram Language Models?
- arxiv url: http://arxiv.org/abs/2410.03001v1
- Date: Thu, 3 Oct 2024 21:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 04:35:40.318281
- Title: Can Transformers Learn $n$-gram Language Models?
- Title(参考訳): トランスフォーマーは$n$-gramの言語モデルを学ぶことができるか?
- Authors: Anej Svete, Nadav Borenstein, Mike Zhou, Isabelle Augenstein, Ryan Cotterell,
- Abstract要約: 2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。
例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
- 参考スコア(独自算出の注目度): 77.35809823602307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Much theoretical work has described the ability of transformers to represent formal languages. However, linking theoretical results to empirical performance is not straightforward due to the complex interplay between the architecture, the learning algorithm, and training data. To test whether theoretical lower bounds imply \emph{learnability} of formal languages, we turn to recent work relating transformers to $n$-gram language models (LMs). We study transformers' ability to learn random $n$-gram LMs of two kinds: ones with arbitrary next-symbol probabilities and ones where those are defined with shared parameters. We find that classic estimation techniques for $n$-gram LMs such as add-$\lambda$ smoothing outperform transformers on the former, while transformers perform better on the latter, outperforming methods specifically designed to learn $n$-gram LMs.
- Abstract(参考訳): 多くの理論的な研究は、トランスフォーマーが形式言語を表現する能力について記述している。
理論的な下界が形式言語のemph{learnability} を意味するかどうかをテストするために、変換器を$n$-gram言語モデル(LM)に変換する最近の研究に目を向ける。
本研究では,任意の次シンボル確率を持つもの,共有パラメータで定義されるもの,の2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。
我々は,$n$-gram LM の古典的推定手法である add-$\lambda$ smoothing outperform transformer を前者に対して提案するのに対し,transformer は$n$-gram LM を学習するために特別に設計された優れた手法である。
- On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Bypassing the Exponential Dependency: Looped Transformers Efficiently Learn In-context by Multi-step Gradient Descent [26.764893400499354]
この結果から,入力データが一定条件数である場合,$n = O(d)$であれば,線形ループ変換器の誤差は小さくなることがわかった。
論文 参考訳(メタデータ) (2024-10-15T04:44:23Z) - Transformers Can Represent $n$-gram Language Models [56.06361029539347]
本稿では,言語モデルの単純かつ歴史的なクラスであるトランスフォーマーLMと$n$-gram LMの関係に注目した。
ハードまたはスパースアテンション機構を用いたトランスフォーマーLMは,任意の$n$-gram LMを正確に表現できることを示す。
論文 参考訳(メタデータ) (2024-04-23T12:51:37Z) - Counting Like Transformers: Compiling Temporal Counting Logic Into Softmax Transformers [8.908747084128397]
時間カウントロジックの $textsfK_textt$[#] と RASP の $textsfC-RASP$ を紹介します。
論文 参考訳(メタデータ) (2024-04-05T20:36:30Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z)