論文の概要: EVTP-IVS: Effective Visual Token Pruning For Unifying Instruction Visual Segmentation In Multi-Modal Large Language Models
- arxiv url: http://arxiv.org/abs/2508.11886v1
- Date: Sat, 16 Aug 2025 03:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.434283
- Title: EVTP-IVS: Effective Visual Token Pruning For Unifying Instruction Visual Segmentation In Multi-Modal Large Language Models
- Title(参考訳): EVTP-IVS:マルチモーダル大言語モデルにおけるインストラクション・ビジュアル・セグメンテーションの統合のための効果的なビジュアル・トーケン・プルーニング
- Authors: Wenhui Zhu, Xiwen Chen, Zhipeng Wang, Shao Tang, Sayan Ghosh, Xuanzhao Dong, Rajat Koner, Yalin Wang,
- Abstract要約: 命令されたビジュアルタスクは、自然言語命令に基づいた画像やビデオ内のオブジェクトのセグメンテーションを必要とする。
最近のマルチモーダル大言語モデル(MLLM)は、ISV上では高いパフォーマンスを達成しているが、その推論コストは依然として大きなボトルネックとなっている。
我々は,空間情報を統合することで,k中心上に構築されたEVTP-IVと呼ばれる新しい視覚的トークンのプルーニング手法を提案する。
- 参考スコア(独自算出の注目度): 8.397725938541381
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Instructed Visual Segmentation (IVS) tasks require segmenting objects in images or videos based on natural language instructions. While recent multimodal large language models (MLLMs) have achieved strong performance on IVS, their inference cost remains a major bottleneck, particularly in video. We empirically analyze visual token sampling in MLLMs and observe a strong correlation between subset token coverage and segmentation performance. This motivates our design of a simple and effective token pruning method that selects a compact yet spatially representative subset of tokens to accelerate inference. In this paper, we introduce a novel visual token pruning method for IVS, called EVTP-IV, which builds upon the k-center by integrating spatial information to ensure better coverage. We further provide an information-theoretic analysis to support our design. Experiments on standard IVS benchmarks show that our method achieves up to 5X speed-up on video tasks and 3.5X on image tasks, while maintaining comparable accuracy using only 20% of the tokens. Our method also consistently outperforms state-of-the-art pruning baselines under varying pruning ratios.
- Abstract(参考訳): 命令付きビジュアルセグメンテーション(IVS)タスクでは、自然言語命令に基づいた画像やビデオ内のオブジェクトのセグメンテーションが必要となる。
最近のマルチモーダル大言語モデル(MLLM)は、ISV上では高いパフォーマンスを達成しているが、その推論コストは、特にビデオにおいて大きなボトルネックとなっている。
MLLMにおける視覚的トークンサンプリングを実験的に分析し、サブセットトークンのカバレッジとセグメンテーション性能の強い相関関係を観察する。
これにより,トークンのコンパクトかつ空間的に代表されるサブセットを選択して推論を高速化する,単純かつ効果的なトークンプルーニング手法が考案された。
本稿では,空間情報を統合し,より優れたカバレッジを確保することで,k中心上に構築されるEVTP-IVと呼ばれる新しいISVの視覚的トークンプルーニング手法を提案する。
設計を支援するための情報理論解析も提供する。
標準ISVベンチマーク実験の結果,ビデオタスクでは最大5倍,画像タスクでは3.5倍,トークンでは20%の精度で同等の精度を維持した。
また, この手法は, 最先端プルーニングベースラインを, 異なるプルーニング比で一貫して上回っている。
関連論文リスト
- AdaptInfer: Adaptive Token Pruning for Vision-Language Model Inference with Dynamical Text Guidance [7.594255363909475]
視覚言語モデル(VLM)は、視覚的質問応答(VQA)のような多モーダル推論タスクにおいて印象的な性能を達成した。
プリフィル段階で処理される多数の視覚トークンのために、それらの推論コストは依然として大きな課題である。
既存のプルーニング手法は、しばしばアテンションパターンや静的テキストプロンプトガイダンスを直接使用することに依存し、推論時に発生する動的内部信号の活用に失敗する。
InVLMにおける適応型視覚トークンプルーニングのためのプラグイン・アンド・プレイフレームワークであるAdaptInferを提案する。
論文 参考訳(メタデータ) (2025-08-08T07:27:26Z) - SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs [74.2538340966038]
マルチモーダル言語モデル(MLLM)が視覚入力をどのように処理するかを,その注意機構を解析して検討する。
LLMにおける注目のごく一部だけが視覚的理解に有効である。
我々は,KVキャッシュ最適化手法であるSparseMMを導入し,その視覚的スコアに基づいて非対称な計算予算をLLMの先頭に割り当てる。
論文 参考訳(メタデータ) (2025-06-05T17:59:55Z) - VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。
1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。
VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文 参考訳(メタデータ) (2025-05-28T17:59:08Z) - Keyframe-oriented Vision Token Pruning: Enhancing Efficiency of Large Vision Language Models on Long-Form Video Processing [30.94114120434789]
KVTP(Keyframe-oriented Vision Token MME)を提案する。
KVTPは、冗長な計算を著しく削減しつつ、重要なコンテキスト情報を効果的に保持する。
論文 参考訳(メタデータ) (2025-03-13T17:47:52Z) - QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.0749609778104]
既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。
QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。
クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文 参考訳(メタデータ) (2025-03-11T17:59:57Z) - Sparsity Meets Similarity: Leveraging Long-Tail Distribution for Dynamic Optimized Token Representation in Multimodal Large Language Models [6.467840081978855]
マルチモーダル大言語モデル(MM-LLM)は様々なタスクで大きな成功を収めた。
主な計算負担は、処理されたテキストと視覚トークンから生じる。
視覚的CLSトークン類似度曲線の屈折点を同定する動的プルーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-02T10:49:10Z) - Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。
サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。
サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文 参考訳(メタデータ) (2024-02-22T06:47:44Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。