論文の概要: Frequency-Ordered Tokenization for Better Text Compression
- arxiv url: http://arxiv.org/abs/2602.22958v1
- Date: Thu, 26 Feb 2026 12:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.689202
- Title: Frequency-Ordered Tokenization for Better Text Compression
- Title(参考訳): テキスト圧縮性向上のための周波数順化トークン化
- Authors: Maximilian Kalcher,
- Abstract要約: MethodはByte Pairでテキストをトークン化する。
結果を可変長整数でエンコードし、任意の標準圧縮機に渡す。
enwik8(100MBウィキペディア)では、zlibが7.08ポイント(pp)、LZMAが1.69pp、zstdが0.76pp改善されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present frequency-ordered tokenization, a simple preprocessing technique that improves lossless text compression by exploiting the power-law frequency distribution of natural language tokens (Zipf's law). The method tokenizes text with Byte Pair Encoding (BPE), reorders the vocabulary so that frequent tokens receive small integer identifiers, and encodes the result with variable-length integers before passing it to any standard compressor. On enwik8 (100 MB Wikipedia), this yields improvements of 7.08 percentage points (pp) for zlib, 1.69 pp for LZMA, and 0.76 pp for zstd (all including vocabulary overhead), outperforming the classical Word Replacing Transform. Gains are consistent at 1 GB scale (enwik9) and across Chinese and Arabic text. We further show that preprocessing accelerates compression for computationally expensive algorithms: the total wall-clock time including preprocessing is 3.1x faster than raw zstd-22 and 2.4x faster than raw LZMA, because the preprocessed input is substantially smaller. The method can be implemented in under 50 lines of code.
- Abstract(参考訳): 本稿では、自然言語トークンのパワーロッド周波数分布を利用して、ロスレステキスト圧縮を改善する単純な前処理技術である、周波数順序付きトークン化を提案する(Zipfの法則)。
この方法はByte Pair Encoding (BPE)でテキストをトークン化し、頻繁なトークンが小さな整数識別子を受け取るように語彙を再順序付けし、標準圧縮機に渡す前に可変長の整数で結果をエンコードする。
enwik8 (100 MB Wikipedia)では、zlibが7.08ポイント(pp)、LZMAが1.69pp、zstdが0.76pp(すべて語彙のオーバーヘッドを含む)の改善が、従来のWord Replacing Transformより優れている。
ゲインは1GBスケール(enwik9)で、中国語とアラビア語のテキスト間で一貫性がある。
さらに、前処理は計算コストの高いアルゴリズムの圧縮を加速し、前処理を含む壁面時間は、生のzstd-22より3.1倍、生のLZMAより2.4倍高速である。
この方法は50行以下のコードで実装できる。
関連論文リスト
- Spiralformer: Low Latency Encoder for Streaming Speech Recognition with Circular Layer Skipping and Early Exiting [70.75913449565203]
Transformerベースのエンコーダはブロック処理に広く使われている。
本稿では,ブロック処理に適した新しいエンコーダSpralformerを提案する。
実験の結果,Librispeechにおける平均トークン放出遅延は21.6%減少した。
論文 参考訳(メタデータ) (2025-10-01T14:56:45Z) - A Partition Cover Approach to Tokenization [24.595558878756787]
トークン化とは、文字列を一定の語彙サイズのトークンに符号化するプロセスである。
Byte-Pair corpora (BPE) は、トークン化問題を圧縮問題として定式化し、マージのシーケンスを実行することでそれに取り組む。
GreedTokは圧縮においてBPEやUnigramよりも優れており、GreedWMCに匹敵するカバースコアが得られることを示す。
論文 参考訳(メタデータ) (2025-01-08T17:07:07Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens [65.4435926060951]
本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。
我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-05-07T10:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。