論文の概要: Large Language Model as Token Compressor and Decompressor
- arxiv url: http://arxiv.org/abs/2603.25340v1
- Date: Thu, 26 Mar 2026 11:30:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.265975
- Title: Large Language Model as Token Compressor and Decompressor
- Title(参考訳): Token Compressor と Decompressor としての大規模言語モデル
- Authors: Wenbing Li, Zikai Song, Jielei Zhang, Tianhao Zhao, Junkai Lin, Yiran Wang, Wei Yang,
- Abstract要約: 既製のLCMは優れたトークン圧縮機および圧縮機として機能することを示す。
我々は、自己表現型自動符号化学習フレームワークを用いて、長文を離散長潜時符号のコンパクトな内部言語に翻訳する。
- 参考スコア(独自算出の注目度): 13.847845643427119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we establish the novel insight that an off-the-shelf LLM can function as an excellent token compressor and decompressor. To demonstrate, we design a self-expressive autoencoding learning framework fine-tunes a pretrained LLM to translate long texts into a compact internal language of discrete, variable-length latent codes, termed Z-tokens, and to reconstruct the original text exactly from them. The resulting representation is content-adaptive: semantically dense segments receive more Z-tokens, while redundant or predictable regions are aggressively compressed, via lightweight LoRA-based adapter heads. Empirically, our method achieves up to 18 times token reduction on Wikipedia, CNN/DailyMail, HotpotQA, and Qulac-style long-query datasets, while preserving reconstruction fidelity and downstream performance. This simple yet effective design supports applications including prompt compression and autoregressive generation directly in the Z-token space, offering a potential pathway toward token-efficient long-context reasoning.
- Abstract(参考訳): 本稿では,既製のLCMが優れたトークン圧縮機および非圧縮機として機能する,という新たな知見を確立する。
そこで本研究では,自己表現型自動符号化学習フレームワークを設計し,長文を離散長の可変長ラテント符号のコンパクトな内部言語に翻訳し,Z-tokenとよばれ,元のテキストを正確に再構築する。
セマンティックに密接なセグメントはより多くのZトークンを受け取り、冗長または予測可能な領域は軽量のLoRAベースのアダプタヘッドを介して積極的に圧縮される。
提案手法は,ウィキペディア,CNN/DailyMail,HotpotQA,Qulacスタイルのロングクエリデータセットに対して最大18倍のトークン削減を実現し,再構築精度とダウンストリーム性能を維持した。
このシンプルで効果的な設計は、Z-token空間に直接、即時圧縮と自己回帰生成を含むアプリケーションをサポートし、トークン効率の良い長文推論への潜在的経路を提供する。
関連論文リスト
- On the Semantic and Syntactic Information Encoded in Proto-Tokens for One-Step Text Reconstruction [0.5097809301149341]
自己回帰型大言語モデル(LLM)はテキストトークン・バイ・トーケンを生成し、長さnのシーケンスを生成するためにnフォワードパスを必要とする。
最近の研究によると、凍結したLLMは、たった2つの学習されたプロトトケンから数百のトークンを1つの前方パスで再構築できる。
我々は,これらのプロトタイプが符号化した情報と,再構成と制御制約の下でどのように振る舞うかについて検討する。
論文 参考訳(メタデータ) (2026-02-20T15:54:10Z) - zip2zip: Inference-Time Adaptive Tokenization via Online Compression [27.16551923444618]
zip2zipは、大規模言語モデルでコンテキスト適応トークン化を実現するための新しい方法である。
パラメータ効率のよい微調整により、既存のLLMを10GPU時間でzip2zipにアップトレーニングできることが示される。
結果としてLLMはテスト時間適応を行い、目に見えないコンテキストでハイパートークンを使うことを学び、入力トークンと出力トークンを15~40%削減する。
論文 参考訳(メタデータ) (2025-06-01T17:03:02Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - LightThinker: Thinking Step-by-Step Compression [74.34839026338342]
提案するLightThinkerは,大規模言語モデルを用いて推論中の中間的思考を動的に圧縮する手法である。
人間の認知プロセスにインスパイアされたLightThinkerは、思考ステップをコンパクトな表現に圧縮し、元の推論チェーンを捨てる。
実験によると、LightThinkerは競合精度を維持しながら、ピークメモリ使用量と推論時間を短縮する。
論文 参考訳(メタデータ) (2025-02-21T16:57:22Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。