論文の概要: Unpacking Tokenization: Evaluating Text Compression and its Correlation
with Model Performance
- arxiv url: http://arxiv.org/abs/2403.06265v1
- Date: Sun, 10 Mar 2024 17:02:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 06:48:05.430345
- Title: Unpacking Tokenization: Evaluating Text Compression and its Correlation
with Model Performance
- Title(参考訳): unpacking tokenization:テキスト圧縮の評価とモデル性能との関連性
- Authors: Omer Goldman, Avi Caciularu, Matan Eyal, Kris Cao, Idan Szpektor, Reut
Tsarfaty
- Abstract要約: 我々は,0-gram言語モデリングとみなす圧縮の理論的重要性を論じる。
事前学習した言語モデルの下流での成功に対する圧縮の実証的重要性を示す。
本稿では,トークン化器の圧縮とモデル下流性能の相関関係を示す。
- 参考スコア(独自算出の注目度): 36.7062356690043
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite it being the cornerstone of BPE, the most common tokenization
algorithm, the importance of compression in the tokenization process is still
unclear. In this paper, we argue for the theoretical importance of compression,
that can be viewed as 0-gram language modeling where equal probability is
assigned to all tokens. We also demonstrate the empirical importance of
compression for downstream success of pre-trained language models. We control
the compression ability of several BPE tokenizers by varying the amount of
documents available during their training: from 1 million documents to a
character-based tokenizer equivalent to no training data at all. We then
pre-train English language models based on those tokenizers and fine-tune them
over several tasks. We show that there is a correlation between tokenizers'
compression and models' downstream performance, suggesting that compression is
a reliable intrinsic indicator of tokenization quality. These correlations are
more pronounced for generation tasks (over classification) or for smaller
models (over large ones). We replicated a representative part of our
experiments on Turkish and found similar results, confirming that our results
hold for languages with typological characteristics dissimilar to English. We
conclude that building better compressing tokenizers is a fruitful avenue for
further research and for improving overall model performance.
- Abstract(参考訳): 最も一般的なトークン化アルゴリズムであるBPEの基盤であるにもかかわらず、トークン化プロセスにおける圧縮の重要性はまだ不明である。
本稿では,すべてのトークンに等しい確率が割り当てられた0-gram言語モデルと見なすことができる圧縮の理論的重要性について論じる。
また,事前学習した言語モデルの下流における圧縮の重要性を実証的に示す。
トレーニング中に利用可能な文書の量を100万文書から、トレーニングデータに匹敵する文字ベースのトークン化器まで変更することにより、複数のBPEトークン化器の圧縮能力を制御する。
次に、これらのトークン化子に基づいて英語モデルを事前学習し、いくつかのタスクで微調整します。
本稿では,トークン化器の圧縮性能とモデル下流性能との間に相関関係があることを示し,圧縮がトークン化品質の信頼性の高い本質的な指標であることを示唆する。
これらの相関は、生成タスク(分類以上)やより小さなモデル(大きなもの)に対してより顕著である。
トルコ語実験の代表的な部分を再現し、同様の結果を得た結果、タイポロジー的特徴を持つ言語が英語と類似していることを確認した。
より優れた圧縮トークン化器の構築は、さらなる研究とモデル全体のパフォーマンスを改善するための実りある道である、と結論づける。
関連論文リスト
- Theoretical Analysis of Byte-Pair Encoding [0.8655526882770742]
Byte-Pair (BPE) はサブワードトークン化の手法として広く使われている。
BPEは、最適ペア符号化の圧縮効率を最悪の要因に近似することを示した。
論文 参考訳(メタデータ) (2024-11-13T15:04:02Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - Ranking LLMs by compression [13.801767671391604]
圧縮の先駆けとして5つの大きな言語モデルを使用し、課題のある自然言語処理タスクのパフォーマンスを比較します。
実験の結果,圧縮比とモデル性能は正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2024-06-20T10:23:38Z) - Tokenization Is More Than Compression [14.939912120571728]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野に由来する。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z) - A Comprehensive Survey of Compression Algorithms for Language Models [10.21587168771851]
我々は,プルーニング,量子化,知識蒸留,低ランク近似,パラメータ共有,効率的なアーキテクチャ設計など,多様な圧縮アルゴリズムを調査し,要約する。
本稿では,圧縮アルゴリズムの各カテゴリの価値と,大規模言語モデルの出現により大きな影響を与える低コスト圧縮アルゴリズムの望ましい特性について論じる。
論文 参考訳(メタデータ) (2024-01-27T08:38:56Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文 参考訳(メタデータ) (2022-05-22T13:54:44Z) - Impact of Tokenization on Language Models: An Analysis for Turkish [2.4660652494309936]
我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-04-19T12:01:46Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。