論文の概要: Global Compression Commander: Plug-and-Play Inference Acceleration for High-Resolution Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2501.05179v5
- Date: Mon, 11 Aug 2025 05:49:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.153555
- Title: Global Compression Commander: Plug-and-Play Inference Acceleration for High-Resolution Large Vision-Language Models
- Title(参考訳): グローバル圧縮コマンド:高分解能大型ビジョンランゲージモデルのためのプラグアンドプレイ推論高速化
- Authors: Xuyang Liu, Ziming Wang, Junjie Chen, Yuhang Han, Yingyao Wang, Jiale Yuan, Jun Song, Linfeng Zhang, Siteng Huang, Honggang Chen,
- Abstract要約: Global Compression Commander"はHR-LVLM用の新しいトークン圧縮フレームワークである。
GlobalCom$2$は90%以上のパフォーマンスを維持し、90%のビジュアルトークンを圧縮し、FLOPとピークメモリを9.1%と60%に削減している。
- 参考スコア(独自算出の注目度): 21.36437021964681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) excel at visual understanding, but face efficiency challenges due to quadratic complexity in processing long multi-modal contexts. While token compression can reduce computational costs, existing approaches are designed for single-view LVLMs and fail to consider the unique multi-view characteristics of high-resolution LVLMs with dynamic cropping. Existing methods treat all tokens uniformly, but our analysis reveals that global thumbnails can naturally guide the compression of local crops by providing holistic context for informativeness evaluation. In this paper, we first analyze dynamic cropping strategy, revealing both the complementary nature between thumbnails and crops, and the distinctive characteristics across different crops. Based on our observations, we propose "Global Compression Commander" (GlobalCom$^2$), a novel plug-and-play token compression framework for HR-LVLMs. GlobalCom$^2$ leverages thumbnail as the "commander" to guide the compression of local crops, adaptively preserving informative details while eliminating redundancy. Extensive experiments show that GlobalCom$^2$ maintains over 90% performance while compressing 90% visual tokens, reducing FLOPs and peak memory to 9.1% and 60%. Our code is available at https://github.com/xuyang-liu16/GlobalCom2.
- Abstract(参考訳): 視覚言語モデル(LVLM)は視覚的理解に優れるが、長いマルチモーダルコンテキストを処理する場合の2次的複雑さによる効率の課題に直面している。
トークン圧縮は計算コストを削減できるが、既存のアプローチはシングルビューLVLM用に設計されており、動的収穫を伴う高解像度LVLMのユニークなマルチビュー特性を考慮できない。
既存の手法では全てのトークンを均一に扱うことができるが,本分析により,グローバルサムネイルは情報性評価のための全体的コンテキストを提供することで,局所作物の圧縮を自然に導くことができることが明らかとなった。
本稿では,まず,サムネイルと作物の相補的な性質と,異なる作物にまたがる特徴を明らかにすることによって,動的収穫戦略を解析する。
本稿では,HR-LVLM 用の新しいプラグアンドプレイトークン圧縮フレームワーク "Global Com$^2$" を提案する。
GlobalCom$^2$はサムネイルを"コマンド"として利用して、局所的な作物の圧縮を誘導し、冗長性を排除しながら情報的詳細を適応的に保存する。
大規模な実験によると、GlobalCom$^2$は90%以上の性能を維持し、90%のビジュアルトークンを圧縮し、FLOPとピークメモリを9.1%と60%に削減している。
私たちのコードはhttps://github.com/xuyang-liu16/GlobalCom2.orgから入手可能です。
関連論文リスト
- A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models [94.49953824684853]
人間の認知に触発された動的刈り取りフレームワークGlimpsePruneを導入する。
データ駆動の 'glimpse' を受け取り、応答生成の前に単一のフォワードパスで無関係な視覚トークンをプルーンする。
強化されたGlimpsePrune+は、同様に高いプルーニング率を維持しながら、ベースライン性能の110%を達成する。
論文 参考訳(メタデータ) (2025-08-03T02:15:43Z) - LaCo: Efficient Layer-wise Compression of Visual Tokens for Multimodal Large Language Models [62.240460476785934]
視覚エンコーダの中間層内で効果的なトークン圧縮を実現する新しいフレームワークであるLaCo(Layer-wise Visual Token Compression)を提案する。
LaCoは,1)空間-チャネル変換によって隣接するトークンを体系的にマージするレイヤワイドピクセルシャッフル機構,2)非パラメトリックショートカットを用いた残差学習アーキテクチャ,の2つのコアコンポーネントを導入している。
論文 参考訳(メタデータ) (2025-07-03T03:42:54Z) - LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs [23.801172170798132]
LLaVA-Scissorは、マルチモーダルな大規模言語モデルのために設計された、トレーニング不要なトークン圧縮戦略である。
本稿では,セマンティック・コネクテッド・コンポーネント(SCC)のアプローチを活用し,包括的セマンティック・カバレッジを確保することを提案する。
我々は,LLaVA-Scissorのトークン圧縮性能を多様なビデオ理解ベンチマークで広範囲に評価する。
論文 参考訳(メタデータ) (2025-06-27T02:29:58Z) - Beyond Hard and Soft: Hybrid Context Compression for Balancing Local and Global Information Retention [30.580674811560613]
大規模言語モデル(LLM)は、計算の非効率性と冗長な処理による長周期推論において重大な課題に直面する。
既存の方法は、ハードローカル圧縮や、ソフトグローバル圧縮のための遅延表現にコンテキストをエンコードするためにトークンの重要度に依存することが多い。
我々は,グローバルな視点とローカルな視点を統合してコンテキスト圧縮をガイドするHyCo$を提案する。
論文 参考訳(メタデータ) (2025-05-21T17:26:11Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression [1.8893427856534721]
InternVL-Xは、性能と効率の両方で、InternVLモデルより優れている。
20%以下のビジュアルトークンを利用することで、InternVL-Xは7つのパブリックMLLMベンチマークで最先端のパフォーマンスを達成し、12タスクの平均メトリックを2.34%改善する。
論文 参考訳(メタデータ) (2025-03-27T09:31:35Z) - Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models [36.16630765077807]
MLLM(HICom)における条件付きトーケン圧縮のためのハイブリッドレベルのインストラクションインジェクション戦略を提案する。
ローカルレベルとグローバルレベルの両方から圧縮を誘導する条件として,この命令を使用する。
実験の結果、HIComは少ないトークンで優れた映像理解能力を得ることができることがわかった。
論文 参考訳(メタデータ) (2025-03-20T11:09:18Z) - LVLM-Compress-Bench: Benchmarking the Broader Impact of Large Vision-Language Model Compression [7.67622140575795]
LVLM-Compress-Benchはマルチモーダル入力駆動タスクによるLVLMの生成性能に対する圧縮の影響を広く研究するフレームワークである。
一般的なLLaVAフレームワークの4つのLVLM変種を用いて、さまざまな最先端KVと重み圧縮手法を統合することにより、分析結果を提示する。
本フレームワークは,実世界と合成データセットの組み合わせを利用して,一般的な指標と重要な指標の両方に対する圧縮効果を実証する。
論文 参考訳(メタデータ) (2025-03-06T21:21:18Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models [64.9366388601049]
ビジュアルトークン圧縮は、視覚入力の相当なトークン長を減らすために利用される。
我々は,プログレッシブ・ビジュアル・トークン圧縮と呼ばれる統一的なトークン圧縮戦略を導入する。
本モデルは,様々なビデオ理解ベンチマークにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-12T18:59:40Z) - Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Mini-Monkey: Alleviating the Semantic Sawtooth Effect for Lightweight MLLMs via Complementary Image Pyramid [87.09900996643516]
本稿では,高分解能画像処理における意味的不連続性を軽減するための補完画像ピラミッド(CIP)を提案する。
また、冗長な視覚トークンを圧縮することにより、計算オーバーヘッドを増大させるスケール圧縮機構(SCM)を導入する。
我々の実験は、CIPが様々なアーキテクチャで継続的に性能を向上できることを示した。
論文 参考訳(メタデータ) (2024-08-04T13:55:58Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [56.20788367278211]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z) - Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models [44.437693135170576]
我々は、高度化タスク付きLMM、局所画像圧縮、グローバルエキスパートの混合(SliME)を提案する。
我々は,異なるタスクにおいて異なるアダプタが優れているという観察に基づいて,アダプタの混合を用いてグローバルビューからコンテキスト情報を抽出する。
提案手法は,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。
論文 参考訳(メタデータ) (2024-06-12T17:59:49Z) - DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval [73.82017200889906]
テキストビデオ検索は、テキストクエリーに最も関連性の高いビデオを見つけるための重要なマルチモーダルタスクである。
我々は,グローバルローカルなビデオアテンションを考慮したモーダル動的プロンプトチューニング手法であるDGLを提案する。
従来のプロンプトチューニング手法とは対照的に,ローカルレベルのテキストとフレームプロンプトを生成するために,共有潜在空間を用いる。
論文 参考訳(メタデータ) (2024-01-19T09:58:06Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - MLIC++: Linear Complexity Multi-Reference Entropy Modeling for Learned
Image Compression [30.71965784982577]
我々はMEM++を導入し、潜在表現に固有の様々な相関関係をキャプチャする。
MEM++は最先端のパフォーマンスを実現し、PSNRのVTM-17.0と比較して、KodakデータセットのBDレートを13.39%削減した。
MLIC++はリニアGPUメモリを解像度で表示し、高解像度の画像符号化に非常に適している。
論文 参考訳(メタデータ) (2023-07-28T09:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。