論文の概要: Test-Time Temporal Sampling for Efficient MLLM Video Understanding
- arxiv url: http://arxiv.org/abs/2511.17945v1
- Date: Sat, 22 Nov 2025 06:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.532295
- Title: Test-Time Temporal Sampling for Efficient MLLM Video Understanding
- Title(参考訳): MLLM高能率映像理解のためのテスト時間時サンプリング
- Authors: Kaibin Wang, Mingbao Lin,
- Abstract要約: Test-Time Temporal Sampling (T3S) は、MLLMが効率よくかつ効果的に長編ビデオを処理できるトレーニングフリーのプラグアンドプレイ推論ラッパーである。
我々の手法は推論時に完全に動作し、モデル修正や微調整は不要であり、幅広い事前訓練されたMLLMと互換性がある。
- 参考スコア(独自算出の注目度): 26.144261085897863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Processing long videos with multimodal large language models (MLLMs) poses a significant computational challenge, as the model's self-attention mechanism scales quadratically with the number of video tokens, resulting in high computational demand and slow inference speed. Current solutions, such as rule-based sub-sampling, learned frame selector, or memory-based summarization, often introduce their own trade-offs: they compromise accuracy, necessitate additional training, or decrease inference speed. In this paper, we propose Test-Time Temporal Sampling (T3S), a training-free, plug-and-play inference wrapper that enables MLLMs to process long videos both efficiently and effectively. T3S exploits spatiotemporal redundancy by generating multiple short and diverse subsequences of video tokens at inference time, packing them within a single forward pass, and aggregating their predictions. This multi-subsequence formulation broadens visual coverage while reducing the computational cost of self-attention from $O(L^2)$ to $O(\sum_{i=1}^m α_i^2L^2)$, where $\sum_{i=1}^m α_i^2 < 1$. Extensive experiments on long video understanding benchmarks demonstrate that T3S improves accuracy by up to 3.1% and reduces first token delay by $2.04\times$, all with minimal integration effort. Our approach operates entirely at inference time, requires no model modifications or fine-tuning, and is compatible with a wide range of pretrained MLLMs. T3S turns video redundancy into a computational advantage, offering a scalable solution for long-video understanding. The code is available at https://github.com/kaibinwang3/T3S.
- Abstract(参考訳): マルチモーダル大言語モデル (MLLM) による長いビデオの処理は、ビデオトークンの数に比例して2次的にスケールし、高い計算要求と推論速度の低下をもたらすため、重要な計算課題となる。
ルールベースのサブサンプリング、学習フレームセレクタ、メモリベースの要約といった現在のソリューションは、しばしば独自のトレードオフを導入します。
本稿では,MLLM が長時間ビデオの処理を効率よく,かつ効果的に行うことができるトレーニングフリーのプラグイン・アンド・プレイ推論ラッパーである Test-Time Temporal Smpling (T3S) を提案する。
T3Sは、複数の短い、多様なビデオトークンのサブシーケンスを推論時に生成し、それらを単一のフォワードパスにパックし、それらの予測を集約することで、時空間の冗長性を悪用する。
この多列式は、自己注意の計算コストを$O(L^2)$から$O(\sum_{i=1}^m α_i^2L^2)$に減らし、視覚的カバレッジを拡大する。
長いビデオ理解ベンチマークに関する大規模な実験では、T3Sは最大3.1%の精度向上と、最初のトークン遅延を2.04\times$に削減し、統合の最小化を図っている。
我々の手法は推論時に完全に動作し、モデル修正や微調整は不要であり、幅広い事前訓練されたMLLMと互換性がある。
T3Sは、ビデオの冗長性を計算上の優位性に変え、長いビデオ理解のためのスケーラブルなソリューションを提供する。
コードはhttps://github.com/kaibinwang3/T3Sで公開されている。
関連論文リスト
- Free-MoRef: Instantly Multiplexing Context Perception Capabilities of Video-MLLMs within Single Inference [88.57742986765238]
Free-MoRefは、ビデオMLLMのコンテキスト認識能力を多重化するトレーニング不要のアプローチである。
実験によると、Free-MoRefは1つのA100 GPUで圧縮することなく、2$times$から8$times$の入力フレームを完全に認識できる。
論文 参考訳(メタデータ) (2025-08-04T07:31:10Z) - Sparse-to-Dense: A Free Lunch for Lossless Acceleration of Video Understanding in LLMs [25.13186579764434]
Sparse-to-Dense(StD)は、2つの異なるモジュールを統合する新しいデコード戦略である。
StDはチューニング不要のプラグイン・アンド・プレイのソリューションで、最大1.94$times$ビデオ処理のウォールタイムスピードアップを実現している。
論文 参考訳(メタデータ) (2025-05-25T14:09:28Z) - An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes [85.00111442236499]
本稿では,非時間密度の動画をGumbel Softmax を用いて様々な立方体に分割する新しい知覚パラダイムを持つ LMM である textbfQuicksviewer を提案する。
言語バックボーンから3段階のプログレッシブステージを通じてモデルをトレーニングし、それぞれが知覚効率によって平均420s/1fpsの長大なビデオを組み込む。
トレーニング用ビデオテキストサンプルは0.8Mに過ぎず, 精度が最大8.72倍に向上した。
論文 参考訳(メタデータ) (2025-04-21T17:57:21Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - ST$^3$: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming [14.937905258757635]
$textbfST3$は、再トレーニングせずにMLLM推論を高速化するように設計されたフレームワークである。
$textbfST3$は、既存のトレーニング済みMLLMにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-12-28T10:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。