論文の概要: StreamingAssistant: Efficient Visual Token Pruning for Accelerating Online Video Understanding
- arxiv url: http://arxiv.org/abs/2512.12560v1
- Date: Sun, 14 Dec 2025 05:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.314797
- Title: StreamingAssistant: Efficient Visual Token Pruning for Accelerating Online Video Understanding
- Title(参考訳): Streaming Assistant: オンラインビデオ理解の高速化のための効率的なビジュアルトーケンプルーニング
- Authors: Xinqi Jin, Hanxun Yu, Bohan Yu, Kebin Liu, Jian Liu, Keda Tao, Yixuan Pei, Huan Wang, Fan Dang, Jiangchuan Liu, Weiqiang Wang,
- Abstract要約: 重要な情報を保持しつつコンテキスト長を削減する手段としてトークンプルーニングを提案する。
具体的には、空間隣接ビデオトークン(MSSAVT)に対する最大類似性という新しい冗長度指標を導入する。
マスク付きプルーニング戦略も設計し、互いに不適切なトークンがプルーニングされることを保証します。
- 参考スコア(独自算出の注目度): 29.539015046656615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online video understanding is essential for applications like public surveillance and AI glasses. However, applying Multimodal Large Language Models (MLLMs) to this domain is challenging due to the large number of video frames, resulting in high GPU memory usage and computational latency. To address these challenges, we propose token pruning as a means to reduce context length while retaining critical information. Specifically, we introduce a novel redundancy metric, Maximum Similarity to Spatially Adjacent Video Tokens (MSSAVT), which accounts for both token similarity and spatial position. To mitigate the bidirectional dependency between pruning and redundancy, we further design a masked pruning strategy that ensures only mutually unadjacent tokens are pruned. We also integrate an existing temporal redundancy-based pruning method to eliminate temporal redundancy of the video modality. Experimental results on multiple online and offline video understanding benchmarks demonstrate that our method significantly improves the accuracy (i.e., by 4\% at most) while incurring a negligible pruning latency (i.e., less than 1ms). Our full implementation will be made publicly available.
- Abstract(参考訳): パブリック監視やAIメガネといったアプリケーションには、オンラインビデオ理解が不可欠だ。
しかし、この領域にMLLM(Multimodal Large Language Models)を適用することは、大量のビデオフレームのために困難であり、高いGPUメモリ使用率と計算遅延をもたらす。
これらの課題に対処するため,重要な情報を保持しつつコンテキスト長を削減する手段としてトークンプルーニングを提案する。
具体的には、トークンの類似性と空間的位置の両方を考慮に入れた、新しい冗長度基準である最大空間隣接ビデオトークン(MSSAVT)を導入する。
さらに, プルーニングと冗長性の双方向依存性を軽減するために, 互いに不適切なトークンのみをプルーニングするマスク付きプルーニング戦略を設計する。
また,ビデオモダリティの時間的冗長性を排除するために,既存の時間的冗長性に基づくプルーニング手法を統合する。
複数のオンラインおよびオフラインビデオ理解ベンチマークによる実験結果から,提案手法は無視可能なプルーニング遅延(すなわち1ms未満)を発生させながら,精度(最大で4\%)を大幅に向上することが示された。
私たちの完全な実装は公開されます。
関連論文リスト
- SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference [49.84148668264725]
SparseVILAは効率的なVLM推論のための新しいパラダイムであり、前処理と復号の段階で視覚空間を疎結合する。
AWQ最適化推論パイプライン上に構築されたSparseVILAは、プリフィルの最大4.0倍、デコーディングの2.5倍、長文ビデオタスクの2.6倍のエンドツーエンド高速化を実現している。
論文 参考訳(メタデータ) (2025-10-20T17:35:47Z) - Dense Video Understanding with Gated Residual Tokenization [49.17263029080152]
高時間分解能は、ビデオ理解における微細な細部を捉えるのに不可欠である。
現在のベンチマークは主に低フレームレートサンプリングに依存している。
Dense Video Understanding (DVU)は、トークン化時間とトークンオーバーヘッドの両方を削減することで、高FPSビデオの理解を可能にする。
論文 参考訳(メタデータ) (2025-09-17T17:34:40Z) - Less is More: Token-Efficient Video-QA via Adaptive Frame-Pruning and Semantic Graph Integration [24.337139909108117]
過剰なフレームが文脈の希釈によってパラドックス的に性能を低下させる「レスはそれ以上」現象である。
視覚エコー」は「視覚エコー」という時間的冗長性を有する
AFP"は、ResNet-50とCLIPの機能空間に適応的な階層的クラスタリングアルゴリズムを用いて、これらのエコーを単一の代表に識別し、マージする。
我々の完全なアプローチは、必要なフレームを86.9%まで、合計入力トークンを83.2%まで劇的に削減することを示しています。
論文 参考訳(メタデータ) (2025-08-05T11:31:55Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。