論文の概要: Compressing Sequences in the Latent Embedding Space: $K$-Token Merging for Large Language Models
- arxiv url: http://arxiv.org/abs/2604.15153v1
- Date: Thu, 16 Apr 2026 15:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.985475
- Title: Compressing Sequences in the Latent Embedding Space: $K$-Token Merging for Large Language Models
- Title(参考訳): 潜伏埋め込み空間における圧縮シーケンス:大規模言語モデルのための$K$-Tokenのマージ
- Authors: Zihao Xu, John Harvill, Ziwei Fan, Yizhou Sun, Hao Ding, Hao Wang,
- Abstract要約: トークン圧縮は、入力を表すトークンの数を減らすことで、この問題に対処することを目的としている。
我々は,Kトークンの連続ブロックを1つの埋め込みにマージする潜在空間圧縮フレームワークであるK-Token Mergingを提案する。
実験の結果, K-Token Mergingは最大75%の入力長削減を実現し, 性能劣化を最小限に抑えることができた。
- 参考スコア(独自算出の注目度): 35.95256971588258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) incur significant computational and memory costs when processing long prompts, as full self-attention scales quadratically with input length. Token compression aims to address this challenge by reducing the number of tokens representing inputs. However, existing prompt-compression approaches primarily operate in token space and overlook inefficiencies in the latent embedding space. In this paper, we propose K-Token Merging, a latent-space compression framework that merges each contiguous block of K token embeddings into a single embedding via a lightweight encoder. The compressed sequence is processed by a LoRA-adapted LLM, while generation remains in the original vocabulary. Experiments on structural reasoning (Textualized Tree), sentiment classification (Amazon Reviews), and code editing (CommitPackFT) show that K-Token Merging lies on the Pareto frontier of performance vs. compression, achieving up to 75% input length reduction with minimal performance degradation.
- Abstract(参考訳): LLM(Large Language Models)は、長いプロンプトを処理する際の計算とメモリのコストを大幅に削減する。
トークン圧縮は、入力を表すトークンの数を減らすことで、この問題に対処することを目的としている。
しかし、既存のプロンプト圧縮アプローチは、主にトークン空間で機能し、潜在埋め込み空間では非効率性を見落としている。
本稿では,Kトークンの連続したブロックを,軽量エンコーダを介して単一の埋め込みにマージする潜在空間圧縮フレームワークであるK-Token Mergingを提案する。
圧縮シーケンスは LoRA 適応 LLM で処理され、生成は元の語彙に残る。
構造推論(Textualized Tree)、感情分類(Amazon Reviews)、コード編集(CommitPackFT)の実験は、K-Token Mergingがパフォーマンスと圧縮のParetoフロンティアにあることを示している。
関連論文リスト
- Large Language Model as Token Compressor and Decompressor [13.847845643427119]
既製のLCMは優れたトークン圧縮機および圧縮機として機能することを示す。
我々は、自己表現型自動符号化学習フレームワークを用いて、長文を離散長潜時符号のコンパクトな内部言語に翻訳する。
論文 参考訳(メタデータ) (2026-03-26T11:30:44Z) - CORE: Compact Object-centric REpresentations as a New Paradigm for Token Merging in LVLMs [29.08277140543501]
視覚的トークン圧縮のための新しいパラダイムであるCORE(Compact Object-centric Representation)を紹介する。
COREは効率的なセグメンテーションデコーダを利用してオブジェクトマスクを生成する。
実験により、COREは固定レート圧縮のための6つの信頼性ベンチマークに対して新しい最先端のベンチマークを確立するだけでなく、適応レート設定において劇的な効率向上を達成することが示された。
論文 参考訳(メタデータ) (2025-11-18T03:02:23Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
textscPoDはトークンの重要度に応じてメモリを割り当てる。
textscPoDは、パフォーマンスを損なうことなく、KVキャッシュメモリ使用量を最大35%削減する。
論文 参考訳(メタデータ) (2024-12-03T08:29:27Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Context Compression for Auto-regressive Transformers with Sentinel
Tokens [37.07722536907739]
本稿では,特定のトークンの中間活性化をコンパクトに段階的に圧縮できるプラグイン・アンド・プレイ方式を提案する。
ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、我々のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2023-10-12T09:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。