論文の概要: Toward a Theory of Tokenization in LLMs
- arxiv url: http://arxiv.org/abs/2404.08335v1
- Date: Fri, 12 Apr 2024 09:01:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 15:26:16.036787
- Title: Toward a Theory of Tokenization in LLMs
- Title(参考訳): LLMにおけるトークン化の理論に向けて
- Authors: Nived Rajaraman, Jiantao Jiao, Kannan Ramchandran,
- Abstract要約: 本稿では, 簡単なデータ生成プロセスにおいて, 変圧器の挙動を研究することによって, 理論的観点からトークン化について検討する。
変換器によって学習された最も単純なユニグラムモデルでさえ、$ktextth$-order Markovソースから引き出されたシーケンスの確率を最適にモデル化できることを示す。
- 参考スコア(独自算出の注目度): 26.516041872337887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While there has been a large body of research attempting to circumvent tokenization for language modeling (Clark et al., 2022; Xue et al., 2022), the current consensus is that it is a necessary initial step for designing state-of-the-art performant language models. In this paper, we investigate tokenization from a theoretical point of view by studying the behavior of transformers on simple data generating processes. When trained on data drawn from certain simple $k^{\text{th}}$-order Markov processes for $k > 1$, transformers exhibit a surprising phenomenon - in the absence of tokenization, they empirically fail to learn the right distribution and predict characters according to a unigram model (Makkuva et al., 2024). With the addition of tokenization, however, we empirically observe that transformers break through this barrier and are able to model the probabilities of sequences drawn from the source near-optimally, achieving small cross-entropy loss. With this observation as starting point, we study the end-to-end cross-entropy loss achieved by transformers with and without tokenization. With the appropriate tokenization, we show that even the simplest unigram models (over tokens) learnt by transformers are able to model the probability of sequences drawn from $k^{\text{th}}$-order Markov sources near optimally. Our analysis provides a justification for the use of tokenization in practice through studying the behavior of transformers on Markovian data.
- Abstract(参考訳): 言語モデリングのためのトークン化(Clark et al , 2022; Xue et al , 2022)を回避しようとする研究が数多く行われているが、現在のコンセンサスでは、最先端のパフォーマンス言語モデルを設計するための必要な初期ステップである。
本稿では, 簡単なデータ生成プロセスにおいて, 変圧器の挙動を研究することによって, 理論的観点からトークン化を考察する。
ある単純な$k^{\text{th}}$-order Markovプロセスから$k > 1$のデータをトレーニングすると、トランスフォーマーは驚くべき現象を示す。
しかし、トークン化の追加により、トランスフォーマーがこの障壁を突破し、ほぼ最適にソースから引き出されたシーケンスの確率をモデル化し、小さなクロスエントロピー損失を達成することを実証的に観察する。
この観測を出発点として,トークン化のないトランスフォーマーによって達成されるエンドツーエンドのクロスエントロピー損失について検討する。
適切なトークン化により、変換子によって学習された最も単純なユニグラムモデルでさえ、$k^{\text{th}}$-order Markovソースから引き出されたシーケンスの確率を最適にモデル化できることが示される。
我々の分析は,マルコフデータ上でのトランスフォーマーの挙動を研究することによって,トークン化の実践的利用を正当化するものである。
関連論文リスト
- Transformers Can Represent $n$-gram Language Models [56.06361029539347]
本稿では,言語モデルの単純かつ歴史的なクラスであるトランスフォーマーLMと$n$-gram LMの関係に注目した。
ハードまたはスパースアテンション機構を用いたトランスフォーマーLMは,任意の$n$-gram LMを正確に表現できることを示す。
論文 参考訳(メタデータ) (2024-04-23T12:51:37Z) - How Transformers Learn Causal Structure with Gradient Descent [49.808194368781095]
自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。
我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。
我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:47:03Z) - The Evolution of Statistical Induction Heads: In-Context Learning Markov
Chains [28.41876902994335]
In-context Learning (ICL) 機能がどのように出現するかを研究するために,Markov Chain シーケンスモデリングタスクを導入する。
このタスクで訓練されたトランスフォーマーは、正確な次の確率を計算するための統計的誘導ヘッドを形成する。
本研究では, 変圧器層間の相互作用から学習結果が得られたことを示し, より単純なユニグラム解の存在が最終ビッグラム解の形成を遅らせる可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:28:36Z) - How do Transformers perform In-Context Autoregressive Learning? [65.92202218348696]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Benefits of Transformer: In-Context Learning in Linear Regression Tasks
with Unstructured Data [24.1488081067319]
コンテクスト内学習を容易にする変圧器の正確なコンポーネントについて検討する。
本稿では,2層のソフトマックス(自己)アテンションを持つトランスフォーマーが,各例に$x_i$のトークンに$y_i$がある場合のプロンプトから学習できることを観察する。
論文 参考訳(メタデータ) (2024-02-01T16:39:45Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。