論文の概要: zip2zip: Inference-Time Adaptive Vocabularies for Language Models via Token Compression
- arxiv url: http://arxiv.org/abs/2506.01084v1
- Date: Sun, 01 Jun 2025 17:03:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.923447
- Title: zip2zip: Inference-Time Adaptive Vocabularies for Language Models via Token Compression
- Title(参考訳): zip2zip:Token Compressionによる言語モデルに対する推論時適応語彙
- Authors: Saibo Geng, Nathan Ranchin, Yunzhen yao, Maxime Peyrard, Chris Wendler, Michael Gastpar, Robert West,
- Abstract要約: zip2zipは、大規模言語モデルで推論時にトークン語彙を動的に調整できるフレームワークである。
パラメータ効率の良い微調整により,既存のLLMを10GPU時間でzip2zip-fiedできることを示す。
結果として得られるzip2zip LLMは、推論時にハイパートークンを使用することを効果的に学習し、入力および出力シーケンスの長さを20-60%削減する。
- 参考スコア(独自算出の注目度): 32.01058227175771
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization efficiency plays a critical role in the performance and cost of large language models (LLMs), yet most models rely on static tokenizers optimized for general-purpose corpora. These tokenizers' fixed vocabularies often fail to adapt to domain- or language-specific inputs, leading to longer token sequences and higher computational costs. We introduce zip2zip, a framework that enables LLMs to dynamically adjust token vocabulary at inference time, allowing for fewer generated tokens and thus faster inference. zip2zip consists of three key components: (1) a tokenizer based on Lempel-Ziv-Welch (LZW) compression that incrementally compresses tokens into reusable "hypertokens" on the fly; (2) an embedding layer that computes embeddings for newly formed hypertokens at runtime; and (3) a causal language modeling variant that trains the model to operate on hypertokenized, compressed sequences. We show that an existing LLM can be zip2zip-fied in 10 GPU-hours via parameter-efficient finetuning. The resulting zip2zip LLMs effectively learn to use hypertokens at inference time, reducing input and output sequence length by 20-60\%, with significant improvements in inference latency.
- Abstract(参考訳): トークン化効率は、大規模言語モデル(LLM)の性能とコストにおいて重要な役割を果たすが、ほとんどのモデルは汎用コーパスに最適化された静的トークン化器に依存している。
これらのトークンライザの固定語彙はしばしばドメインや言語固有の入力に適応できず、より長いトークンシーケンスとより高い計算コストをもたらす。
我々は、LLMが推論時にトークン語彙を動的に調整できるフレームワークであるzip2zipを導入し、より少ない生成トークンと高速な推論を可能にする。
zip2zipは、(1)Lempel-Ziv-Welch(LZW)圧縮に基づくトークンライザで、オンザフライでトークンを再利用可能な"ハイパートークン"に漸進的に圧縮する。
パラメータ効率の良い微調整により,既存のLLMを10GPU時間でzip2zip-fiedできることを示す。
結果として得られるzip2zip LLMは、推論時にハイパートークンを使用することを効果的に学習し、入力および出力シーケンスの長さを20-60\%削減し、推論遅延を大幅に改善した。
関連論文リスト
- Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - Retrofitting Large Language Models with Dynamic Tokenization [3.608780819053423]
動的トークン化による現在の言語モデルの再適合を提案する。
バッチに頻繁なサブワードシーケンスをマージし、トレーニング済みの埋め込み予測ハイパーネットワークを適用して、トークンの埋め込みをオンザフライで計算する。
動的トークン化は、推論速度を大幅に向上し、言語間の公平性を促進することにより、静的トークン化の限界を軽減することができる。
論文 参考訳(メタデータ) (2024-11-27T17:51:58Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - MultiTok: Variable-Length Tokenization for Efficient LLMs Adapted from LZW Compression [5.5795785998430185]
MultiTokは、ユニバーサルなLempel-Ziv-Welchデータ圧縮にインスパイアされた新しいトークン化手法である。
我々は,MultiTok が BERT と GPT-2 の標準に匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2024-10-28T21:24:51Z) - LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference [30.722379261991563]
LazyLLMは次のトークン予測に重要なトークンのKVを選択的に計算する手法である。
LLama 2 7Bモデルのプレフィルステージを2.34倍の精度で高速化する。
論文 参考訳(メタデータ) (2024-07-19T06:34:45Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。