Fugu-MT 論文翻訳(概要): Frequency-Ordered Tokenization for Better Text Compression

論文の概要: Frequency-Ordered Tokenization for Better Text Compression

arxiv url: http://arxiv.org/abs/2602.22958v1
Date: Thu, 26 Feb 2026 12:53:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.689202
Title: Frequency-Ordered Tokenization for Better Text Compression
Title（参考訳）: テキスト圧縮性向上のための周波数順化トークン化
Authors: Maximilian Kalcher,
Abstract要約: MethodはByte Pairでテキストをトークン化する。結果を可変長整数でエンコードし、任意の標準圧縮機に渡す。 enwik8(100MBウィキペディア)では、zlibが7.08ポイント(pp)、LZMAが1.69pp、zstdが0.76pp改善されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present frequency-ordered tokenization, a simple preprocessing technique that improves lossless text compression by exploiting the power-law frequency distribution of natural language tokens (Zipf's law). The method tokenizes text with Byte Pair Encoding (BPE), reorders the vocabulary so that frequent tokens receive small integer identifiers, and encodes the result with variable-length integers before passing it to any standard compressor. On enwik8 (100 MB Wikipedia), this yields improvements of 7.08 percentage points (pp) for zlib, 1.69 pp for LZMA, and 0.76 pp for zstd (all including vocabulary overhead), outperforming the classical Word Replacing Transform. Gains are consistent at 1 GB scale (enwik9) and across Chinese and Arabic text. We further show that preprocessing accelerates compression for computationally expensive algorithms: the total wall-clock time including preprocessing is 3.1x faster than raw zstd-22 and 2.4x faster than raw LZMA, because the preprocessed input is substantially smaller. The method can be implemented in under 50 lines of code.
Abstract（参考訳）: 本稿では、自然言語トークンのパワーロッド周波数分布を利用して、ロスレステキスト圧縮を改善する単純な前処理技術である、周波数順序付きトークン化を提案する(Zipfの法則)。この方法はByte Pair Encoding (BPE)でテキストをトークン化し、頻繁なトークンが小さな整数識別子を受け取るように語彙を再順序付けし、標準圧縮機に渡す前に可変長の整数で結果をエンコードする。 enwik8 (100 MB Wikipedia)では、zlibが7.08ポイント(pp)、LZMAが1.69pp、zstdが0.76pp(すべて語彙のオーバーヘッドを含む)の改善が、従来のWord Replacing Transformより優れている。ゲインは1GBスケール(enwik9)で、中国語とアラビア語のテキスト間で一貫性がある。さらに、前処理は計算コストの高いアルゴリズムの圧縮を加速し、前処理を含む壁面時間は、生のzstd-22より3.1倍、生のLZMAより2.4倍高速である。この方法は50行以下のコードで実装できる。

関連論文リスト

Spiralformer: Low Latency Encoder for Streaming Speech Recognition with Circular Layer Skipping and Early Exiting [70.75913449565203]
Transformerベースのエンコーダはブロック処理に広く使われている。本稿では,ブロック処理に適した新しいエンコーダSpralformerを提案する。実験の結果,Librispeechにおける平均トークン放出遅延は21.6%減少した。
論文参考訳（メタデータ） (2025-10-01T14:56:45Z)
Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization [53.22544362024936]
トークン化は、ほとんどのNLPパイプラインの最初の、そして最も精査されていないステップである。トークンの学習のための標準的なアルゴリズムは、周波数ベースの目的に依存している。本稿ではParity-aware Byte Pairを紹介する。私たちは、パリティを意識したBPEが言語間でより公平なトークン数をもたらすことを実証的に見出した。
論文参考訳（メタデータ） (2025-08-06T18:14:43Z)
CODEPROMPTZIP: Code-specific Prompt Compression for Retrieval-Augmented Generation in Coding Tasks with LMs [6.936336826531964]
Retrieval-Augmented Generation (RAG)は、検索したコード例をプロンプトに組み込むことで、コーディングタスクを強化する。既存の即時圧縮技術は自然言語に重点を置いており、コードの適切なソリューションが欠如している。 RAGに組み込む前にコード例を圧縮するフレームワークであるCodePromptZipを提案する。
論文参考訳（メタデータ） (2025-02-19T23:15:23Z)
Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。 11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文参考訳（メタデータ） (2025-02-02T13:10:06Z)
A Partition Cover Approach to Tokenization [24.595558878756787]
トークン化とは、文字列を一定の語彙サイズのトークンに符号化するプロセスである。 Byte-Pair corpora (BPE) は、トークン化問題を圧縮問題として定式化し、マージのシーケンスを実行することでそれに取り組む。 GreedTokは圧縮においてBPEやUnigramよりも優れており、GreedWMCに匹敵するカバースコアが得られることを示す。
論文参考訳（メタデータ） (2025-01-08T17:07:07Z)
Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文参考訳（メタデータ） (2024-04-04T17:48:28Z)
Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens [65.4435926060951]
本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
論文参考訳（メタデータ） (2023-05-07T10:32:18Z)
Fast and parallel decoding for transducer [25.510837666148024]
本研究では,トランスデューサ損失の制約付きバージョンを導入し,シーケンス間のモノトニックアライメントを厳密に学習する。また、時間毎に出力できるシンボルの数を制限することで、標準の欲求探索とビーム探索アルゴリズムを改善した。
論文参考訳（メタデータ） (2022-10-31T07:46:10Z)
Instantaneous Grammatical Error Correction with Shallow Aggressive Decoding [57.08875260900373]
即時文法的誤り訂正(GEC)のためのトランスフォーマーのオンライン推論効率を改善するために,Shallow Aggressive Decoding (SAD)を提案する。 SADは、計算並列性を改善するために、各ステップで1つのトークンだけを復号するのではなく、可能な限り多くのトークンを並列に復号する。英語と中国語のGECベンチマークでの実験では、アグレッシブな復号化がオンライン推論の大幅なスピードアップをもたらす可能性がある。
論文参考訳（メタデータ） (2021-06-09T10:30:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。