論文の概要: CIVIC: End-to-End Sequence Compactness for Efficient Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.28115v1
- Date: Wed, 27 May 2026 08:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.871014
- Title: CIVIC: End-to-End Sequence Compactness for Efficient Vision-Language Models
- Title(参考訳): CIVIC:効率的なビジョンランゲージモデルのためのエンドツーエンドシーケンス圧縮性
- Authors: Fengze Yang, Bo Yu, Xuewen Luo, Cathy Liu, Chenxi Liu,
- Abstract要約: VLM(Vision-Language Models)は、高解像度のビジュアルトークンによって、メモリとレイテンシのボトルネックに直面する。
本稿では,パス一貫性のあるコンパクトビジュアル推論フレームワークであるCIVICを紹介する。
- 参考スコア(独自算出の注目度): 7.896496805472634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) face severe memory and latency bottlenecks due to high-resolution visual tokens. While current token reduction methods theoretically save FLOPs, post-hoc pruning introduces structural overhead, failing to yield proportional wall-clock acceleration. However, enforcing a contiguous compact pathway risks geometric disorientation and loss of fine-grained localization. To overcome these barriers, this paper introduces CIVIC, a path-consistent compact visual inference framework. By maintaining compact sequence representations seamlessly across the vision encoder, projection layer, LLM prefill, and KV-cache, CIVIC avoids non-contiguous memory access and localized unmerging overheads. Evaluated on the Qwen3-VL architecture, CIVIC successfully translates sequence reductions into genuine physical hardware efficiency, shrinking KV-cache memory to approximately one-third of the baseline and reducing end-to-end inference latency. Enabled by text-aligned KL distillation and an adaptive spatial retention floor, CIVIC achieves these efficiency milestones without degrading accuracy across rigorous multimodal reasoning and visual grounding benchmarks.
- Abstract(参考訳): VLM(Vision-Language Models)は、高解像度のビジュアルトークンによって、メモリとレイテンシのボトルネックに直面する。
現在のトークン低減法は理論的にはFLOPを節約するが、ポストホットプルーニングでは構造的オーバーヘッドが生じ、壁面加速度が比例しない。
しかし、連続したコンパクトな経路を強制することは、幾何学的不整合と微粒化の損失を危険にさらす。
これらの障壁を克服するために,パス一貫性のコンパクトなビジュアル推論フレームワークであるCIVICを紹介する。
ビジョンエンコーダ、プロジェクション層、LLMプリフィル、KV-cacheにまたがるコンパクトなシーケンス表現をシームレスに維持することにより、CIVICは不連続なメモリアクセスと局所化されたアンマージオーバーヘッドを回避する。
Qwen3-VLアーキテクチャに基づいて、CIVICはシーケンスの削減を真の物理ハードウェア効率に変換し、KVキャッシュメモリをベースラインの約3分の1に縮小し、エンドツーエンドの推論遅延を低減した。
CIVICはテキスト整列KL蒸留と適応空間保持フロアによって実現され、厳密なマルチモーダル推論と視覚的接地ベンチマークで精度を低下させることなく、これらの効率のマイルストーンを達成する。
関連論文リスト
- StreamCacheVGGT: Streaming Visual Geometry Transformers with Robust Scoring and Hybrid Cache Compression [39.0869112189715]
StreamCacheVGTは、キャッシュ管理を再定義するトレーニング不要のフレームワークである。
一定のコストの制約に厳格に固執しつつ、より優れた復元精度と長期安定を提供する。
論文 参考訳(メタデータ) (2026-04-16T17:12:10Z) - Latent-Condensed Transformer for Efficient Long Context Modeling [60.72493959155964]
大規模言語モデルに対するLCA(Latent-Condensed Attention)を提案する。
LCAはMLAの潜伏空間内のコンテキストを凝縮し、表現はセマンティック潜伏ベクトルと位置キーに切り離される。
LCAは、最大2.5$times$プリフィルスピードアップと128Kコンテキストでの90%のKVキャッシュ削減を実現している。
論文 参考訳(メタデータ) (2026-04-14T08:40:31Z) - LG-HCC: Local Geometry-Aware Hierarchical Context Compression for 3D Gaussian Splatting [77.81227097905865]
アンカーベースの3DGS圧縮スキームは、いくつかの高度な文脈モデルを通してガウスの冗長性を減少させる。
本稿では, アンカープルーニングとエントロピー符号化にアンカー幾何学的相関を組み込んだ3DGSのための局所幾何学的階層型コンテキスト圧縮フレームワークを提案する。
実験の結果、LG-HCCは構造保存の問題を効果的に緩和し、Mip-NeRF360データセット上のScaffold-GSベースラインと比較して最大30.85倍のストレージを削減した。
論文 参考訳(メタデータ) (2026-03-30T13:39:35Z) - Hierarchical Adaptive Eviction for KV Cache Management in Multimodal Language Models [8.944739362562494]
既存のKVキャッシュ消去戦略は、視覚トークンとテキストトークンの間の不均一な注意分布に対処できない。
MLLMにおけるテキスト-視覚トークンの相互作用を最適化するKVキャッシュ消去フレームワークである階層適応消去(HAE)を提案する。
HAEは層間のKVキャッシュ使用を最小化し、インデックスブロードキャストによる計算オーバーヘッドを低減し、理論的には優れた情報完全性と低いエラー境界を保証する。
論文 参考訳(メタデータ) (2026-02-02T15:01:44Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Stateful KV Cache Management for LLMs: Balancing Space, Time, Accuracy, and Positional Fidelity [0.0]
キーバリュー(KV)キャッシュは、大規模言語モデル(LLM)における効率的な自己回帰推論に不可欠である
本稿では,KVキャッシュ管理戦略とメタラマ/メタラマ-3-8b-インストラクトのようなモデルのアーキテクチャ的コンテキスト制限との相互作用について検討する。
論文 参考訳(メタデータ) (2025-10-23T18:22:00Z) - KV-Efficient VLA: A Method of Speed up Vision Language Model with RNN-Gated Chunked KV Cache [0.9238700679836854]
VLA(Vision-Language-Action)モデルは、ロボットの認識と制御の統一を約束するが、そのスケーラビリティは、長軸推論における注意の二次的コストとキー値(KV)メモリの非有界成長によって制約される。
KV-Efficient VLAは、高ユーティリティコンテキストを選択的に保持する軽量なトレーニングフレンドリーなメカニズムを導入することで、これらの制限に対処するモデルに依存しないメモリ圧縮フレームワークである。
提案手法は,既存の自己回帰およびハイブリッドVLAスタックにシームレスに統合し,トレーニングパイプラインや下流制御ロジックを変更することなく,スケーラブルな推論を可能にする。
論文 参考訳(メタデータ) (2025-09-20T02:04:24Z) - COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction [60.87168562615171]
自動運転コミュニティは、3Dの占有率予測に大きな関心を示している。
我々は、幾何学的占有率エンコーダと意味論的グループデコーダを備えたコンパクト占有率TRansformer (COTR)を提案する。
COTRは、8%から15%の相対的な改善でベースラインを上回っている。
論文 参考訳(メタデータ) (2023-12-04T14:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。