論文の概要: Sink-Token-Aware Pruning for Fine-Grained Video Understanding in Efficient Video LLMs
- arxiv url: http://arxiv.org/abs/2604.20937v1
- Date: Wed, 22 Apr 2026 13:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.107203
- Title: Sink-Token-Aware Pruning for Fine-Grained Video Understanding in Efficient Video LLMs
- Title(参考訳): 高速ビデオLLMにおける細粒度映像理解のためのシンクトーケン対応プルーニング
- Authors: Kibum Kim, Jiwan Kim, Kyle Min, Yueqi Wang, Jinyoung Moon, Julian McAuley, Chanyoung Park,
- Abstract要約: トレーニング不要のビジュアルトークンプルーニングが計算コスト削減のソリューションとして登場した。
既存の手法はMultiple-Choice Question Answering (MCQA)ベンチマークで検証される。
本研究では,シンクスコアを導入し,各トークンがシンクとして振る舞う傾向を定量化するプラグイン・アンド・プレイ法であるシンク・トケン・プルーニング(SToP)を提案する。
- 参考スコア(独自算出の注目度): 43.32773472027947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Large Language Models (Video LLMs) incur high inference latency due to a large number of visual tokens provided to LLMs. To address this, training-free visual token pruning has emerged as a solution to reduce computational costs; however, existing methods are primarily validated on Multiple-Choice Question Answering (MCQA) benchmarks, where coarse-grained cues often suffice. In this work, we reveal that these methods suffer a sharp performance collapse on fine-grained understanding tasks requiring precise visual grounding, such as hallucination evaluation. To explore this gap, we conduct a systematic analysis and identify sink tokens--semantically uninformative tokens that attract excessive attention--as a key obstacle to fine-grained video understanding. When these sink tokens survive pruning, they distort the model's visual evidence and hinder fine-grained understanding. Motivated by these insights, we propose Sink-Token-aware Pruning (SToP), a simple yet effective plug-and-play method that introduces a sink score to quantify each token's tendency to behave as a sink and applies this score to existing spatial and temporal pruning methods to suppress them, thereby enhancing video understanding. To validate the effectiveness of SToP, we apply it to state-of-the-art pruning methods (VisionZip, FastVid, and Holitom) and evaluate it across diverse benchmarks covering hallucination, open-ended generation, compositional reasoning, and MCQA. Our results demonstrate that SToP significantly boosts performance, even when pruning up to 90% of visual tokens.
- Abstract(参考訳): ビデオ大言語モデル (Video Large Language Models, ビデオ大言語モデル) は、LLMに多数の視覚トークンが提供されるため、高い推論遅延を引き起こす。
これを解決するために、トレーニング不要なビジュアルトークンプルーニングが計算コスト削減のソリューションとして登場したが、既存の手法は主にMCQA(Multiple-Choice Question Answering)ベンチマークで検証されている。
本研究では,これらの手法が,幻覚評価などの正確な視覚的接地を必要とする細粒度理解タスクにおいて,急激な性能低下を被っていることを明らかにした。
このギャップを探索するために、我々は体系的な分析を行い、細かなビデオ理解の鍵となる障害としてシンクトークンを識別する。
これらのシンクトークンがプルーニングに耐えられると、彼らはモデルの視覚的証拠を歪め、きめ細かい理解を妨げる。
これらの知見により,シンク・トケン・アウェア・プルーニング (SToP) を提案する。シンクスコアを導入し,各トークンがシンクとして振る舞う傾向を定量化し,既存の空間的・時間的プルーニング手法にこのスコアを適用して抑制し,映像理解の向上を図る。
SToPの有効性を検証するため,本手法を最先端プルーニング法(VisionZip,FastVid,Holitom)に適用し,幻覚,オープン・エンド・ジェネレーション,構成推論,MCQAを含む様々なベンチマークで評価する。
以上の結果から,SToPは最大90%の視覚トークンをプルーニングしても性能が著しく向上することが示された。
関連論文リスト
- Why and When Visual Token Pruning Fails? A Study on Relevant Visual Information Shift in MLLMs Decoding [26.374232732533198]
Decoding-aware Token Pruning (DSTP)を提案する。
DSTPは複雑な推論タスクにおけるプルーニング手法の性能劣化を著しく軽減することを示した。
DSTPは様々な最先端アーキテクチャで有効性を示し、計算オーバーヘッドを最小限に抑え、その一般化性と効率性を強調している。
論文 参考訳(メタデータ) (2026-04-14T06:48:31Z) - SwiftVLM: Efficient Vision-Language Model Inference via Cross-Layer Token Bypass [20.7003663809766]
視覚トークンプルーニングは、視覚言語モデルの計算コストを削減するための有望なアプローチである。
我々は、選択されていない視覚トークンを保存し、その後のプルーニングステージに転送する、バイパスと呼ばれる新しいプルーニングパラダイムを導入する。
このパラダイムに基づいて,強力な視覚トークン選択機能を備えたモデル固有の層でプルーニングを行う,単純かつトレーニング不要なSwiftVLMを提案する。
論文 参考訳(メタデータ) (2026-02-03T05:42:51Z) - All You Need Are Random Visual Tokens? Demystifying Token Pruning in VLLMs [43.80391827200227]
ディープレイヤでは、既存のトレーニングフリープルーニング手法はランダムプルーニングに勝る。
ビジュアルトークンは、ネットワーク深度の増加に伴い、徐々にサリエンスを失う。
深層層での単純なランダムプルーニングは性能と効率のバランスを効果的に表す。
論文 参考訳(メタデータ) (2025-12-08T14:16:01Z) - ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。
本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。
これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文 参考訳(メタデータ) (2025-10-20T06:18:47Z) - Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。