論文の概要: Where is the signal in tokenization space?
- arxiv url: http://arxiv.org/abs/2408.08541v1
- Date: Fri, 16 Aug 2024 05:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 16:39:36.893333
- Title: Where is the signal in tokenization space?
- Title(参考訳): トークン化空間の信号はどこにありますか。
- Authors: Renato Lui Geh, Honghua Zhang, Kareem Ahmed, Benjie Wang, Guy Van den Broeck,
- Abstract要約: 大規模言語モデル (LLM) は通常、テキストを決定論的に標準的なトークンシーケンスにエンコードするトークン化器を伴って出荷される。
本稿では,非標準トークン化について検討する。
- 参考スコア(独自算出の注目度): 31.016041295876864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are typically shipped with tokenizers that deterministically encode text into so-called canonical token sequences, to which the LLMs assign probability values. One common assumption is that the probability of a piece of text is the probability of its canonical token sequence. However, the tokenization of a string is not unique: e.g., the Llama2 tokenizer encodes Tokens as [Tok,ens], but [Tok,en,s] also represents the same text. In this paper, we study non-canonical tokenizations. We prove that, given a string, it is computationally hard to find the most likely tokenization for an autoregressive LLM, as well as to compute the marginal probability over all possible tokenizations. We then show how the marginal is, in most cases, indistinguishable from the canonical probability. Surprisingly, we then empirically demonstrate the existence of a significant amount of signal hidden within tokenization space. Notably, by simply aggregating the probabilities of non-canonical tokenizations, we achieve improvements across a range of LLM evaluation benchmarks for a variety of architectures, including transformers and state space models.
- Abstract(参考訳): 大規模言語モデル (LLMs) は通常、LLMが確率値を割り当てる、いわゆる標準トークンシーケンスにテキストを決定的にエンコードするトークン化器と共に出荷される。
1つの一般的な仮定は、テキストの確率はその標準トークンシーケンスの確率であるということである。
しかし、文字列のトークン化はユニークではない。例えば、Llama2トークンーはTokensを[Tok,ens]としてエンコードするが、[Tok,en,s]も同じテキストを表す。
本稿では,非標準トークン化について検討する。
文字列が与えられた場合、自己回帰 LLM の最も可能性の高いトークン化を見つけることは困難であり、全ての可能なトークン化の限界確率を計算することは困難である。
そして、その限界が、ほとんどの場合、正準確率と区別できないかを示す。
驚いたことに、トークン化空間内に隠されたかなりの量の信号の存在を実証的に実証する。
特に、非標準トークン化の確率を単純に集約することで、トランスフォーマーや状態空間モデルなど、さまざまなアーキテクチャに対するLLM評価ベンチマークの範囲で改善を実現する。
関連論文リスト
- Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers [32.274579719726546]
トークン化は、人間可読テキストをモデル可読な離散トークンでブリッジする重要なステップである。
近年の研究では、トークン化剤が不要なモデル挙動を引き出すために利用できることが判明している。
非完全トークン、すなわち、バイトレベルバイトペア符号化(BPE)トークン化(英語版)による不完全トークン、すなわち、不完全トークンについて検討する。
論文 参考訳(メタデータ) (2024-10-31T07:19:44Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Transformers are Universal In-context Learners [21.513210412394965]
深層変換器は、コンパクトなトークン領域を均一に、任意の精度で連続的なコンテキスト内マッピングを近似できることを示す。
我々の結果の重要な側面は、既存の結果と比較して、固定精度では、単一変圧器が任意の(無限の)トークン数で動作可能であることである。
論文 参考訳(メタデータ) (2024-08-02T16:21:48Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Text vectorization via transformer-based language models and n-gram
perplexities [0.0]
パープレキシティが入力全体を参照するスカラー値であることを考えると、その計算でその内部の確率分布に関する情報が失われる。
本研究は,入力中のn-gramのパープレクティビティに基づいてベクトル値を計算するための簡単なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-18T13:38:39Z) - Should you marginalize over possible tokenizations? [13.07994518230055]
ログライクリフのギャップは,ほとんどの場合0.5%以下であることを示す。
その結果,ほとんどの場合,ログライクリフのギャップは0.5%以下であることがわかった。
論文 参考訳(メタデータ) (2023-06-30T16:09:01Z) - Tokenization and the Noiseless Channel [71.25796813073399]
優れたトークン化器は、ある入力がモデルに伝達される手段であるチャネルの使用率を高める。
機械翻訳では、複数のトークン化器において、$alpha = 2.5$のR'enyiエントロピーがtextscBleu: $0.78$と非常に強い相関を持つことがわかった。
論文 参考訳(メタデータ) (2023-06-29T10:32:09Z) - Lexinvariant Language Models [84.2829117441298]
離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある
我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。
十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
論文 参考訳(メタデータ) (2023-05-24T19:10:46Z) - You should evaluate your language model on marginal likelihood
overtokenisations [5.824498637088864]
言語モデルはトークン化よりも限界的な可能性に基づいて評価されるべきである、と我々は主張する。
我々は,英語とドイツ語の事前学習モデルについて,最良語化と限界語化の両面で評価した。
論文 参考訳(メタデータ) (2021-09-06T15:37:02Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。