論文の概要: zip2zip: Inference-Time Adaptive Tokenization via Online Compression
- arxiv url: http://arxiv.org/abs/2506.01084v2
- Date: Fri, 24 Oct 2025 12:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:14.986651
- Title: zip2zip: Inference-Time Adaptive Tokenization via Online Compression
- Title(参考訳): zip2zip:オンライン圧縮による推論時間適応型トークン化
- Authors: Saibo Geng, Nathan Ranchin, Yunzhen yao, Maxime Peyrard, Chris Wendler, Michael Gastpar, Robert West,
- Abstract要約: zip2zipは、大規模言語モデルでコンテキスト適応トークン化を実現するための新しい方法である。
パラメータ効率のよい微調整により、既存のLLMを10GPU時間でzip2zipにアップトレーニングできることが示される。
結果としてLLMはテスト時間適応を行い、目に見えないコンテキストでハイパートークンを使うことを学び、入力トークンと出力トークンを15~40%削減する。
- 参考スコア(独自算出の注目度): 27.16551923444618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization efficiency plays a critical role in the performance and cost of large language models (LLMs), yet most models rely on static tokenizers optimized on general-purpose corpora. These tokenizers' fixed vocabularies often fail to adapt to domain- or language-specific inputs, leading to longer token sequences and higher computational costs. We introduce zip2zip, a novel method for achieving context-adaptive tokenization in LLMs at inference time. Leveraging an online data compression algorithm (Lempel-Ziv-Welch), zip2zip dynamically expands its active vocabulary at inference time by continuously replacing fragmented token sequences with more compact hypertokens, which it can immediately output during generation. In doing so, the model refines its internal tokenization scheme to match the token distribution of the current context, reducing redundancy and improving representational efficiency. zip2zip consists of three key components: (1) a tokenizer based on Lempel-Ziv-Welch compression that incrementally merges co-occurring tokens into reusable hypertokens on the fly; (2) a dynamic embedding (and unembedding) layer that computes embeddings for newly formed hypertokens at runtime; and (3) a variant of autoregressive language modeling that pretrains the model to handle hypertokenized, compressed text sequences as inputs and outputs. We show that an existing LLM can be uptrained for zip2zip in 10 GPU-hours via parameter-efficient finetuning. The resulting LLM performs test-time adaptation, learning to use hypertokens in unseen contexts and reducing input and output tokens by 15-40%.
- Abstract(参考訳): トークン化効率は、大規模言語モデル(LLM)の性能とコストにおいて重要な役割を果たすが、ほとんどのモデルは汎用コーパスに最適化された静的トークン化器に依存している。
これらのトークンライザの固定語彙はしばしばドメインや言語固有の入力に適応できず、より長いトークンシーケンスとより高い計算コストをもたらす。
推論時間におけるLLMにおける文脈適応トークン化を実現する新しい手法であるzip2zipを導入する。
オンラインデータ圧縮アルゴリズム(Lempel-Ziv-Welch)を活用して、zip2zipは、断片化されたトークンシーケンスをよりコンパクトなハイパートークンに継続的に置き換えることで、推論時にアクティブな語彙を動的に拡張する。
これにより、現在のコンテキストのトークン分布と一致するように内部トークン化スキームを洗練し、冗長性を低減し、表現効率を向上させる。
zip2zip は,(1) Lempel-Ziv-Welch 圧縮に基づくトークンライザで,トークンを再利用可能なハイパートークンに段階的にマージする,(2) 実行時に新たに生成されたハイパートークンの埋め込みを計算する,動的埋め込み(およびアン埋め込み)層,(3) ハイパートークン化された圧縮されたテキストシーケンスを入力や出力として扱うようにモデルを事前訓練する,自己回帰言語モデリングの亜種である。
パラメータ効率のよい微調整により、既存のLLMを10GPU時間でzip2zipにアップトレーニングできることが示される。
結果としてLLMはテスト時間適応を行い、目に見えないコンテキストでハイパートークンを使うことを学び、入力トークンと出力トークンを15~40%削減する。
関連論文リスト
- Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - Retrofitting Large Language Models with Dynamic Tokenization [3.608780819053423]
動的トークン化による現在の言語モデルの再適合を提案する。
バッチに頻繁なサブワードシーケンスをマージし、トレーニング済みの埋め込み予測ハイパーネットワークを適用して、トークンの埋め込みをオンザフライで計算する。
動的トークン化は、推論速度を大幅に向上し、言語間の公平性を促進することにより、静的トークン化の限界を軽減することができる。
論文 参考訳(メタデータ) (2024-11-27T17:51:58Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - MultiTok: Variable-Length Tokenization for Efficient LLMs Adapted from LZW Compression [5.5795785998430185]
MultiTokは、ユニバーサルなLempel-Ziv-Welchデータ圧縮にインスパイアされた新しいトークン化手法である。
我々は,MultiTok が BERT と GPT-2 の標準に匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2024-10-28T21:24:51Z) - LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference [30.722379261991563]
LazyLLMは次のトークン予測に重要なトークンのKVを選択的に計算する手法である。
LLama 2 7Bモデルのプレフィルステージを2.34倍の精度で高速化する。
論文 参考訳(メタデータ) (2024-07-19T06:34:45Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。
StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文 参考訳(メタデータ) (2023-09-29T17:59:56Z) - ZipLM: Inference-Aware Structured Pruning of Language Models [56.52030193434863]
ZipLMと呼ばれる大規模言語モデル(LLM)に対する新しい構造化圧縮手法を提案する。
ZipLMは、所望のランタイムスピードアップのセットをマッチングしながら、最先端の精度-vs-スピードアップを実現する。
ZipLMはすべての設定で最先端の圧縮モデルを生成する。
論文 参考訳(メタデータ) (2023-02-07T18:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。