論文の概要: HybridToken-VLM: Hybrid Token Compression for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.08240v1
- Date: Tue, 09 Dec 2025 04:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.810922
- Title: HybridToken-VLM: Hybrid Token Compression for Vision-Language Models
- Title(参考訳): ハイブリッドToken-VLM:ビジョンランゲージモデルのためのハイブリッドToken圧縮
- Authors: Jusheng Zhang, Xiaoyang Guo, Kaitong Cai, Qinhan Lv, Yijia Fan, Wenhao Chai, Jian Wang, Keze Wang,
- Abstract要約: 視覚言語モデル(VLM)はマルチモーダル推論を変換している。
連続圧縮は、オブジェクトのアイデンティティのような高レベルなセマンティクスを希薄にする。
セマンティクスと外観を二重チャネルで切り離すハイブリッドフレームワークであるHTC-VLMを紹介する。
- 参考スコア(独自算出の注目度): 24.940043922782944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have transformed multimodal reasoning, but feeding hundreds of visual patch tokens into LLMs incurs quadratic computational costs, straining memory and context windows. Traditional approaches face a trade-off: continuous compression dilutes high-level semantics such as object identities, while discrete quantization loses fine-grained details such as textures. We introduce HTC-VLM, a hybrid framework that disentangles semantics and appearance through dual channels, i.e., a continuous pathway for fine-grained details via ViT patches and a discrete pathway for symbolic anchors using MGVQ quantization projected to four tokens. These are fused into a 580-token hybrid sequence and compressed into a single voco token via a disentanglement attention mask and bottleneck, ensuring efficient and grounded representations. HTC-VLM achieves an average performance retention of 87.2 percent across seven benchmarks (GQA, VQAv2, MMBench, MME, POPE, SEED-Bench, ScienceQA-Image), outperforming the leading continuous baseline at 81.0 percent with a 580-to-1 compression ratio. Attention analyses show that the compressed token prioritizes the discrete anchor, validating its semantic guidance. Our work demonstrates that a minimalist hybrid design can resolve the efficiency-fidelity dilemma and advance scalable VLMs.
- Abstract(参考訳): 視覚言語モデル(VLM)はマルチモーダル推論を変換しているが、数百の視覚パッチトークンをLLMに供給することで2次計算コストを発生させ、メモリとコンテキストウィンドウを歪ませる。
連続圧縮はオブジェクトのアイデンティティのような高レベルなセマンティクスを希釈し、離散量子化はテクスチャのようなきめ細かな詳細を失う。
HTC-VLMは,2つのチャネルを通じてセマンティクスと外観をアンタングルするハイブリッドフレームワークである。つまり,VTパッチによる細かな詳細の連続経路と,MGVQ量子化を4つのトークンに投影したシンボルアンカーの離散経路である。
これらは580トンのハイブリッドシーケンスに融合され、分散注意マスクとボトルネックを通じて単一のボコトークンに圧縮され、効率的で接地された表現が確保される。
HTC-VLMは7つのベンチマーク(GQA、VQAv2、MMBench、MME、POPE、SEED-Bench、ScienceQA-Image)で平均87.2%のパフォーマンス保持を達成した。
注意分析では、圧縮されたトークンが個別のアンカーを優先し、意味的なガイダンスを検証する。
我々の研究は、最小限のハイブリッド設計が効率-忠実度ジレンマを解消し、スケーラブルなVLMを進化させることができることを示した。
関連論文リスト
- Parallel Vision Token Scheduling for Fast and Accurate Multimodal LMMs Inference [68.4758228017823]
ParVTSは、ビジュアルトークンを被写体および非オブジェクトグループに分割し、それらを並列に処理し、それらのセマンティクスを疑問トークンに転送し、非オブジェクトパスミッド推論を破棄する。
実験の結果、ParVTSは最大88.9%の視覚トークンを出力し、最小性能が低下し、1.77倍のスピードアップと70%のFLOPが削減された。
論文 参考訳(メタデータ) (2025-11-24T08:29:36Z) - H1B-KV: Hybrid One-Bit Caches for Memory-Efficient Large Language Model Inference [0.0]
本稿では,Hybrid One-Bit KV Cache(H1B-KV)を提案する。
以上の結果から,H1B-KVの量子化(KIVI),トークン消去(SparseLLM),キーのみのスケッチ法(Loki)は,バイト単位の品質で有意に優れていた。
論文 参考訳(メタデータ) (2025-10-07T02:39:35Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [31.398537194299752]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。