論文の概要: V-CAST: Video Curvature-Aware Spatio-Temporal Pruning for Efficient Video Large Language Models
- arxiv url: http://arxiv.org/abs/2603.27650v1
- Date: Sun, 29 Mar 2026 11:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.055308
- Title: V-CAST: Video Curvature-Aware Spatio-Temporal Pruning for Efficient Video Large Language Models
- Title(参考訳): V-CAST:高能率ビデオ大言語モデルのためのビデオ曲率対応時空間プルーニング
- Authors: Xinying Lin, Xuyang Liu, Yiyu Wang, Teng Ma, Wenqi Ren,
- Abstract要約: ビデオ言語モデル(VideoLLMs)は理解に強い能力を示すが、長いコンテキスト推論はプリフィル段階では巨大な冗長な視覚トークンに支配されている。
長文ビデオ推論のための訓練不要なプラグアンドプレイプルーニングポリシーであるV-CASTを提案する。
- 参考スコア(独自算出の注目度): 48.80617385008755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video large language models (VideoLLMs) show strong capability in video understanding, yet long-context inference is still dominated by massive redundant visual tokens in the prefill stage. We revisit token compression for VideoLLMs under a tight budget and identify a key bottleneck, namely insufficient spatio-temporal information coverage. Existing methods often introduce discontinuous coverage through coarse per-frame allocation or scene segmentation, and token merging can further misalign spatio-temporal coordinates under MRoPE-style discrete (t,h,w) bindings. To address these issues, we propose V-CAST (Video Curvature-Aware Spatio-Temporal Pruning), a training-free, plug-and-play pruning policy for long-context video inference. V-CAST casts token compression as a trajectory approximation problem and introduces a curvature-guided temporal allocation module that routes per-frame token budgets to semantic turns and event boundaries. It further adopts a dual-anchor spatial selection mechanism that preserves high-entropy visual evidence without attention intervention, while keeping retained tokens at their original coordinates to maintain positional alignment. Extensive experiments across multiple VideoLLMs of different architectures and scales demonstrate that V-CAST achieves 98.6% of the original performance, outperforms the second-best method by +1.1% on average, and reduces peak memory and total latency to 86.7% and 86.4% of vanilla Qwen3-VL-8B-Instruct.
- Abstract(参考訳): ビデオ大言語モデル(VideoLLMs)は、ビデオ理解において強力な能力を示すが、長いコンテキスト推論は、まだ準備段階において巨大な冗長な視覚トークンによって支配されている。
我々は,ビデオLLMのトークン圧縮を厳格な予算で再検討し,重要なボトルネック,すなわち時空間情報カバレッジの不十分さを識別する。
既存の手法では、フレーム単位の粗い割り当てやシーンのセグメンテーションによって不連続なカバレッジを導入し、トークンのマージは、MRoPEスタイルの離散(t,h,w)バインディングの下で、時空間座標をさらに誤る可能性がある。
これらの問題に対処するため,V-CAST (Video Curvature-Aware Spatio-Temporal Pruning) を提案する。
V-CASTは、トークン圧縮を軌道近似問題として、フレーム単位のトークン予算をセマンティックターンとイベント境界にルーティングする曲率誘導時間割当モジュールを導入している。
さらに、位置アライメントを維持するために元の座標にトークンを保持しながら、注意を払わずに高エントロピーの視覚的証拠を保存できる二重アンカー空間選択機構を採用している。
異なるアーキテクチャとスケールの複数のビデオLLMにわたる大規模な実験により、V-CASTはオリジナルのパフォーマンスの98.6%を達成し、第2のベストメソッドを平均で+1.1%上回り、ピークメモリと総レイテンシを86.7%、バニラQwen3-VL-8B-インストラクトの86.4%に削減した。
関連論文リスト
- TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding [14.570869250170139]
TV-RAGは、時間的アライメントとエントロピー誘導のセマンティクスを結合して、長時間ビデオの推論を改善する、トレーニング不要のアーキテクチャである。
これらの時間的および意味的な信号を織り合わせることで、TV-RAGは、再トレーニングや微調整なしに任意のLVLMに移植できる二重レベルの推論ルーチンを実現する。
論文 参考訳(メタデータ) (2025-12-29T14:10:22Z) - State Space Prompting via Gathering and Spreading Spatio-Temporal Information for Video Understanding [50.866929044215965]
本稿では,映像理解のためのステートスペース・プロンプティング(SSP)手法を提案する。
SSPはフレーム内のプロンプトを組み合わせて、ビデオ内の重要な時間情報を集約し、伝達する。
我々のSSPは、既存のSOTA法を平均2.76%上回っている。
論文 参考訳(メタデータ) (2025-10-14T05:30:36Z) - Dense Video Understanding with Gated Residual Tokenization [49.17263029080152]
高時間分解能は、ビデオ理解における微細な細部を捉えるのに不可欠である。
現在のベンチマークは主に低フレームレートサンプリングに依存している。
Dense Video Understanding (DVU)は、トークン化時間とトークンオーバーヘッドの両方を削減することで、高FPSビデオの理解を可能にする。
論文 参考訳(メタデータ) (2025-09-17T17:34:40Z) - Temporal Cluster Assignment for Efficient Real-Time Video Segmentation [9.248291541710781]
ビジョントランスフォーマーは、画像ドメインとビデオドメインの両方にわたるセグメンテーションモデルの性能を大幅に向上させた。
Swinのウィンドウベースのアテンションメカニズムは、ウィンドウ毎に一定数のトークンを必要とするため、従来のプルーニング技術の適用性が制限される。
時間的コヒーレンスを活用してトークンクラスタリングを強化する軽量かつ効果的で微調整のない戦略である時間的クラスタ割り当て(TCA)を導入する。
論文 参考訳(メタデータ) (2025-08-07T20:52:49Z) - Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。