論文の概要: LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation
- arxiv url: http://arxiv.org/abs/2504.10854v1
- Date: Tue, 15 Apr 2025 04:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:02.051288
- Title: LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation
- Title(参考訳): LVLM_CSP:Reasoning Segmentationのためのクラスタリング、散乱、プルーニングによる大規模視覚言語モデルの高速化
- Authors: Hanning Chen, Yang Ni, Wenjun Huang, Hyunwoo Oh, Yezi Liu, Tamoghno Das, Mohsen Imani,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、推論セグメンテーションタスクの実行において視覚基盤モデルを導くために広く採用されている。
本研究では,LVLMに基づく推論セグメンテーションタスクに特化して設計された,新しい学習自由な視覚トークンプルーニング手法であるLVLM_CSPを提案する。
- 参考スコア(独自算出の注目度): 10.614327633823462
- License:
- Abstract: Large Vision Language Models (LVLMs) have been widely adopted to guide vision foundation models in performing reasoning segmentation tasks, achieving impressive performance. However, the substantial computational overhead associated with LVLMs presents a new challenge. The primary source of this computational cost arises from processing hundreds of image tokens. Therefore, an effective strategy to mitigate such overhead is to reduce the number of image tokens, a process known as image token pruning. Previous studies on image token pruning for LVLMs have primarily focused on high level visual understanding tasks, such as visual question answering and image captioning. In contrast, guiding vision foundation models to generate accurate visual masks based on textual queries demands precise semantic and spatial reasoning capabilities. Consequently, pruning methods must carefully control individual image tokens throughout the LVLM reasoning process. Our empirical analysis reveals that existing methods struggle to adequately balance reductions in computational overhead with the necessity to maintain high segmentation accuracy. In this work, we propose LVLM_CSP, a novel training free visual token pruning method specifically designed for LVLM based reasoning segmentation tasks. LVLM_CSP consists of three stages: clustering, scattering, and pruning. Initially, the LVLM performs coarse-grained visual reasoning using a subset of selected image tokens. Next, fine grained reasoning is conducted, and finally, most visual tokens are pruned in the last stage. Extensive experiments demonstrate that LVLM_CSP achieves a 65% reduction in image token inference FLOPs with virtually no accuracy degradation, and a 70% reduction with only a minor 1% drop in accuracy on the 7B LVLM.
- Abstract(参考訳): LVLM(Large Vision Language Models)は、視覚基盤モデルの推論セグメンテーションタスクの実行において、優れたパフォーマンスを達成するために広く採用されている。
しかし、LVLMに関連する計算オーバーヘッドは、新しい課題である。
この計算コストの主な原因は、何百もの画像トークンを処理することにある。
したがって、このようなオーバーヘッドを軽減する効果的な戦略は、画像トークンプルーニングと呼ばれるプロセスである画像トークンの数を減らすことである。
LVLMにおける画像トークンのプルーニングに関する研究は、主に視覚的質問応答や画像キャプションといった高レベルな視覚的理解タスクに焦点を当てている。
対照的に、テキストクエリに基づく正確な視覚マスクを生成するための視覚基盤モデルを導くには、正確な意味的および空間的推論能力が必要である。
したがって、プルーニング法はLVLM推論プロセスを通して個々の画像トークンを慎重に制御する必要がある。
実験により,既存の手法では,計算オーバーヘッドの低減と高いセグメンテーション精度を維持する必要性を適切にバランスさせることが困難であることが判明した。
本研究では,LVLMに基づく推論セグメンテーションタスクに特化して設計された,新しい学習自由な視覚トークンプルーニング手法であるLVLM_CSPを提案する。
LVLM_CSPは、クラスタリング、散乱、プルーニングの3段階からなる。
当初、LVLMは選択された画像トークンのサブセットを使用して粗粒度のビジュアル推論を行う。
次に、きめ細かい推論を行い、最後に、ほとんどの視覚的トークンは最終段階でプルーニングされる。
LVLM_CSPは,画像トークン推論FLOPの65%の削減をほぼ精度劣化なく達成し,70%の削減を達成し,7B LVLMの精度は1%しか低下しなかった。
関連論文リスト
- MINT: Mitigating Hallucinations in Large Vision-Language Models via Token Reduction [6.416957959150438]
幻覚は、高い信頼性を必要とする領域におけるLVLM(Large Vision-Language Models)の適用を妨げる。
tokeN再帰による幻覚を緩和する訓練不要な復号法であるMINTを提案する。
提案手法は,従来のモデルに比べて知覚障害による幻覚の緩和効果が4%向上する。
論文 参考訳(メタデータ) (2025-02-02T08:34:57Z) - AdaFV: Rethinking of Visual-Language alignment for VLM acceleration [7.9213473377478865]
偏りのあるVLMの自己アテンションに応じて視覚トークンを減らすいくつかのアプローチは、不正確な応答をもたらす。
本稿では,視覚的満足度とテキスト・ツー・イメージの類似性の有効性を動的に活用する,自己適応型クロスモーダリティ・アテンション・ミックス機構を提案する。
提案手法は,特に縮小速度が十分に大きい場合,最先端のトレーニング不要なVLM加速性能を実現する。
論文 参考訳(メタデータ) (2025-01-16T13:34:33Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction [94.11897755903519]
大きな視覚言語モデル(LVLM)では、画像は豊富な情報を運ぶ入力として機能する。
以前のアプローチでは、LVLMの初期レイヤの前後で画像トークンの数を減らそうとしていた。
本稿では,LVLMの視覚的冗長性低減戦略であるPraamidDropを提案する。
論文 参考訳(メタデータ) (2024-10-22T17:59:53Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。