論文の概要: Global Compression Commander: Plug-and-Play Inference Acceleration for High-Resolution Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2501.05179v4
- Date: Tue, 11 Mar 2025 05:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:39:36.076996
- Title: Global Compression Commander: Plug-and-Play Inference Acceleration for High-Resolution Large Vision-Language Models
- Title(参考訳): グローバル圧縮コマンド:高分解能大型ビジョンランゲージモデルのためのプラグアンドプレイ推論高速化
- Authors: Xuyang Liu, Ziming Wang, Yuhang Han, Yingyao Wang, Jiale Yuan, Jun Song, Bo Zheng, Linfeng Zhang, Siteng Huang, Honggang Chen,
- Abstract要約: グローバル圧縮コマンド(Global Compression Commander、GlobalCom$2$)は、HR-LVLM用の新しいプラグアンドプレイトークン圧縮フレームワークである。
実験の結果,GlobalCom$2$は90%以上の視覚トークンを圧縮しながら90%以上の性能を維持していることがわかった。
- 参考スコア(独自算出の注目度): 28.311125014789905
- License:
- Abstract: Large vision-language models (LVLMs) excel at visual understanding and reasoning, but face efficiency challenges due to quadratic complexity in processing long multimodal contexts. While token compression techniques can reduce computational costs, existing approaches are designed for single-view LVLMs and fail to consider the unique multi-view characteristics of recent high-resolution LVLMs with dynamic tiling. While existing methods treat all tokens uniformly, our analysis reveals that global thumbnails can naturally guide the compression of local crops by providing holistic context for informativeness evaluation. In this paper, we first analyze dynamic tiling strategy comprehensively, revealing both the complementary nature between thumbnails and crops, and the distinctive characteristics across different crops. Based on our observations, we propose "Global Compression Commander" (i.e., GlobalCom$^2$), a novel plug-and-play token compression framework for HR-LVLMs. GlobalCom$^2$ leverages thumbnail as the "commander" to guide the compression process of local crops, adaptively preserving informative details while eliminating redundancy. Extensive experiments show that GlobalCom$^2$ maintains over 90\% performance while compressing 90\% visual tokens, reducing FLOPs and peak memory to 9.1\% and 60\% respectively across multiple benchmarks. Our code is available at https://github.com/xuyang-liu16/GlobalCom2.
- Abstract(参考訳): 視覚言語モデル(LVLM)は視覚的理解と推論に優れるが、長いマルチモーダルコンテキストを処理する場合の2次的複雑さによる効率の課題に直面している。
トークン圧縮技術は計算コストを削減できるが、既存のアプローチはシングルビューLVLM用に設計されており、動的タイリングを備えた最近の高解像度LVLMのユニークなマルチビュー特性を考慮できない。
既存の手法では全てのトークンを均一に扱うが,グローバルサムネイルは情報性評価のための全体的コンテキストを提供することで,局所的な作物の圧縮を自然に導くことができる。
本稿では,まず動的タイリング戦略を包括的に分析し,サムネイルと作物の相補的性質と,異なる作物にまたがる特徴を明らかにした。
本稿では, HR-LVLM 用の新しいプラグ・アンド・プレイトークン圧縮フレームワーク "Global Compression Commander" (GlobalCom$^2$) を提案する。
GlobalCom$^2$はサムネイルを"コマンド"として利用して、局所的な作物の圧縮プロセスをガイドし、冗長性を排除しながら情報的詳細を適応的に保存する。
大規模な実験では、GlobalCom$^2$は90\%以上のパフォーマンスを維持しながら、90\%のビジュアルトークンを圧縮し、FLOPとピークメモリをそれぞれ、複数のベンチマークで9.1\%と60\%に削減している。
私たちのコードはhttps://github.com/xuyang-liu16/GlobalCom2.orgから入手可能です。
関連論文リスト
- Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。
画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。
本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文 参考訳(メタデータ) (2024-11-30T18:54:32Z) - Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding [11.211803499867639]
ゼロショットビデオ理解のための新しい動的トークンマージフレームワークであるDYTOを提案する。
DYTOは階層的なフレーム選択と二部トークンマージ戦略を統合し、動的に鍵フレームをクラスタ化し、トークンシーケンスを選択的に圧縮する。
実験によりDYTOの有効性が示され、微調整法と訓練不要法の両方と比較して優れた性能が得られた。
論文 参考訳(メタデータ) (2024-11-21T18:30:11Z) - Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Mini-Monkey: Alleviating the Semantic Sawtooth Effect for Lightweight MLLMs via Complementary Image Pyramid [87.09900996643516]
本稿では,高分解能画像処理における意味的不連続性を軽減するための補完画像ピラミッド(CIP)を提案する。
また、冗長な視覚トークンを圧縮することにより、計算オーバーヘッドを増大させるスケール圧縮機構(SCM)を導入する。
我々の実験は、CIPが様々なアーキテクチャで継続的に性能を向上できることを示した。
論文 参考訳(メタデータ) (2024-08-04T13:55:58Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [56.20788367278211]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z) - Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models [44.437693135170576]
我々は、高度化タスク付きLMM、局所画像圧縮、グローバルエキスパートの混合(SliME)を提案する。
我々は,異なるタスクにおいて異なるアダプタが優れているという観察に基づいて,アダプタの混合を用いてグローバルビューからコンテキスト情報を抽出する。
提案手法は,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。
論文 参考訳(メタデータ) (2024-06-12T17:59:49Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。