Fugu-MT 論文翻訳(概要): SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

論文の概要: SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

arxiv url: http://arxiv.org/abs/2410.04417v2
Date: Wed, 9 Oct 2024 15:04:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 08:00:46.475152
Title: SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference
Title（参考訳）: SparseVLM: 効率的な視覚・言語モデル推論のための視覚トークンスカラー化
Authors: Yuan Zhang, Chun-Kai Fan, Junpeng Ma, Wenzhao Zheng, Tao Huang, Kuan Cheng, Denis Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, Shanghang Zhang,
Abstract要約: 視覚言語モデル(VLM)では、視覚トークンは通常かなりの計算オーバーヘッドを消費する。本稿では、余分なパラメータや微調整コストを伴わずに、SparseVLMと呼ばれる効率的なトレーニングフリートークン最適化機構を提案する。実験結果から,SparseVLMは画像理解タスクや映像理解タスクにおいて,様々なVLMの効率を向上することが示された。
参考スコア（独自算出の注目度）: 45.11612407862277
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In vision-language models (VLMs), visual tokens usually consume a significant amount of computational overhead, despite their sparser information density compared to text tokens. To address this, most existing methods learn a network to prune redundant visual tokens and require additional training data. Differently, we propose an efficient training-free token optimization mechanism dubbed SparseVLM without extra parameters or fine-tuning costs. Concretely, given that visual tokens complement text tokens in VLMs for linguistic reasoning, we select visual-relevant text tokens to rate the significance of vision tokens within the self-attention matrix extracted from the VLMs. Then we progressively prune irrelevant tokens. To maximize sparsity while retaining essential information, we introduce a rank-based strategy to adaptively determine the sparsification ratio for each layer, alongside a token recycling method that compresses pruned tokens into more compact representations. Experimental results show that our SparseVLM improves the efficiency of various VLMs across a range of image and video understanding tasks. In particular, LLaVA equipped with SparseVLM reduces 61% to 67% FLOPs with a compression ratio of 78% while maintaining 93% of the accuracy. Our code is available at https://github.com/Gumpest/SparseVLMs.
Abstract（参考訳）: 視覚言語モデル(VLM)では、視覚トークンはテキストトークンに比べてスペーサー情報密度が高いにもかかわらず、通常かなりの計算オーバーヘッドを消費する。これを解決するために、既存のほとんどのメソッドは、冗長なビジュアルトークンを実行し、追加のトレーニングデータを必要とするネットワークを学習する。そこで本研究では,SparseVLMと呼ばれる学習不要なトークン最適化機構について,パラメータや微調整コストを伴わずに提案する。具体的には,視覚トークンが言語推論のためにVLMのテキストトークンを補完することを考えると,VLMから抽出した自己認識行列内の視覚トークンの意義を評価するために,視覚関連テキストトークンを選択する。そして、無関係なトークンを徐々に引き起こします。そこで本研究では,各層におけるスカラー化率を適応的に決定するランクベース戦略を導入するとともに,よりコンパクトな表現にプルーンドトークンを圧縮するトークンリサイクル手法を提案する。実験結果から,SparseVLMは画像理解タスクや映像理解タスクにおいて,様々なVLMの効率を向上することが示された。特に、SparseVLMを搭載したLLaVAは、精度の93%を維持しながら、圧縮比78%で61%から67%のFLOPを削減した。私たちのコードはhttps://github.com/Gumpest/SparseVLMsで利用可能です。

関連論文リスト

VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization [49.5501769221435]
LMM(Large Multimodal Models)は、多数の視覚トークンを微粒な視覚情報に活用することにより、視覚言語タスクに優れる。推論中の視覚トークンを減らすことを目的とした以前の研究は、一般的に、視覚のみのトークンや視覚言語トークンの注意スコアから得られた重要マップを利用して、1つまたは複数のプルーニング段階にわたってトークンをプルーンする。重要地図導出プロセスとリサイクル機構を備えたプログレッシブプルーニングモジュールを導入したトークンプルーニングフレームワークであるVFlowOptを提案する。実験により、VFlowOptは、同等のパフォーマンスを維持しながら、90%のビジュアルトークンをプルークでき、KVキャッシュメモリが89%削減され、3.8になった。
論文参考訳（メタデータ） (2025-08-07T09:47:21Z)
Window Token Concatenation for Efficient Visual Large Language Models [59.6094005814282]
視覚的大言語モデル(VLLM)における視覚トークンを減らすために,ウィンドウトークン結合(WiCo)を提案する。 WiCoグループはさまざまなトークンをひとつに分類し、いくつかの細かい詳細を曖昧にします。我々はLLaVA-1.5とShikraをベースとした粗くきめ細かな視覚的理解タスクについて広範囲に実験を行い、既存のトークン低減プロジェクタと比較して優れた性能を示した。
論文参考訳（メタデータ） (2025-04-05T02:32:58Z)
Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [50.214593234229255]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。 Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文参考訳（メタデータ） (2025-03-21T09:46:31Z)
VASparse: Towards Efficient Visual Hallucination Mitigation via Visual-Aware Token Sparsification [44.97217246897902]
LVLM(Large Vision-Language Models)は、視覚幻覚(VH)としても知られる、現実に忠実でない出力を生成する。 Visual-Aware Sparsification (VASparse) を用いた効率的なプラグアンドプレイデコーディングアルゴリズムを提案する。 VHを緩和し、競争力のある復号速度を維持しながら、VASparseは最先端の性能を達成する。
論文参考訳（メタデータ） (2025-01-11T14:09:34Z)
ST$^3$: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming [14.937905258757635]
$textbfST3$は、再トレーニングせずにMLLM推論を高速化するように設計されたフレームワークである。 $textbfST3$は、既存のトレーニング済みMLLMにシームレスに統合できる。
論文参考訳（メタデータ） (2024-12-28T10:17:29Z)
[CLS] Attention is All You Need for Training-Free Visual Token Pruning: Make VLM Inference Faster [26.025260449905577]
大規模言語モデル(LLM)におけるテキスト・ビジュアル・クロスアテンションに基づく視覚トークンの重要性を評価する既存手法我々は、視覚的トークンの重要性をより正確に評価する、トレーニング不要な視覚的トークンプルーニング手法であるFasterVLMを紹介した。 FasterVLMは、LLaVA-1.5-7Bの性能の90%を維持しながら、95%の視覚トークンをプルーする。
論文参考訳（メタデータ） (2024-12-02T18:57:40Z)
Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。 VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
Efficient Vision-Language Models by Summarizing Visual Tokens into Compact Registers [32.167072183575925]
本稿では,より小さなレジスタトークン集合に要約することで,視覚トークンの数を削減できる手法を提案する。ビクターは4%未満の精度低下を示し、トレーニング時間を43%削減し、推論スループットを3.3倍に向上させる。
論文参考訳（メタデータ） (2024-10-17T22:45:13Z)
Balancing Performance and Efficiency: A Multimodal Large Language Model Pruning Method based Image Text Interaction [6.467840081978855]
マルチモーダル大規模言語モデル(MM-LLM)は多くのマルチモーダルタスクにおいて大きな成功を収めているが、その高い計算コストはさらなる促進と応用を制限している。 MM-LLMの視覚的トークンについて検討し,この問題に対処するための動的プルーニングアルゴリズムを設計した。提案手法は,平均22%のトークン量を使用する場合,元のトークン量と競合する性能を実現する。
論文参考訳（メタデータ） (2024-09-02T10:49:10Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的参照を注入する学習自由手法を提案する。 MLLMにおけるテキストプロンプトトークンと視覚トークンの関係を観察する。我々は,エネルギー関数に基づいて学習可能な視覚トークンを最適化し,注目マップにおける参照領域の強度を高める。
論文参考訳（メタデータ） (2024-07-31T11:40:29Z)
VoCo-LLaMA: Towards Vision Compression with Large Language Models [56.20788367278211]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。 LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文参考訳（メタデータ） (2024-06-18T05:05:12Z)
LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文参考訳（メタデータ） (2024-03-22T17:59:52Z)
AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文参考訳（メタデータ） (2023-11-02T12:48:43Z)
ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文参考訳（メタデータ） (2023-09-28T05:31:07Z)
VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文参考訳（メタデータ） (2021-06-21T16:48:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。