論文の概要: VideoScaffold: Elastic-Scale Visual Hierarchies for Streaming Video Understanding in MLLMs
- arxiv url: http://arxiv.org/abs/2512.22226v1
- Date: Tue, 23 Dec 2025 03:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.908186
- Title: VideoScaffold: Elastic-Scale Visual Hierarchies for Streaming Video Understanding in MLLMs
- Title(参考訳): VideoScaffold: MLLMでビデオ理解をストリーミングするElastic-Scale Visual Hierarchies
- Authors: Naishan Zheng, Jie Huang, Qingpei Guo, Feng Zhao,
- Abstract要約: VideoScaffoldはビデオ理解のストリーミング用に設計された動的表現フレームワークである。
微粒な視覚的意味を保ちながら、ビデオの長さに応じてイベントの粒度を適応的に調整する。
このフレームワークはモジュール式でプラグアンドプレイで、既存の画像ベースのMLLMをシームレスに継続的ビデオ理解に拡張する。
- 参考スコア(独自算出の注目度): 28.026438743789907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding long videos with multimodal large language models (MLLMs) remains challenging due to the heavy redundancy across frames and the need for temporally coherent representations. Existing static strategies, such as sparse sampling, frame compression, and clustering, are optimized for offline settings and often produce fragmented or over-compressed outputs when applied to continuous video streams. We present VideoScaffold, a dynamic representation framework designed for streaming video understanding. It adaptively adjusts event granularity according to video duration while preserving fine-grained visual semantics. VideoScaffold introduces two key components: Elastic-Scale Event Segmentation (EES), which performs prediction-guided segmentation to dynamically refine event boundaries, and Hierarchical Event Consolidation (HEC), which progressively aggregates semantically related segments into multi-level abstractions. Working in concert, EES and HEC enable VideoScaffold to transition smoothly from fine-grained frame understanding to abstract event reasoning as the video stream unfolds. Extensive experiments across both offline and streaming video understanding benchmarks demonstrate that VideoScaffold achieves state-of-the-art performance. The framework is modular and plug-and-play, seamlessly extending existing image-based MLLMs to continuous video comprehension. The code is available at https://github.com/zheng980629/VideoScaffold.
- Abstract(参考訳): 多モード大言語モデル(MLLM)による長いビデオの理解は、フレーム間の重冗長性と時間的コヒーレントな表現の必要性のため、依然として困難である。
スパースサンプリング、フレーム圧縮、クラスタリングといった既存の静的戦略は、オフライン設定に最適化されており、連続したビデオストリームに適用した場合、しばしば断片化されたあるいは過剰圧縮された出力を生成する。
本稿では,ビデオ理解のための動的表現フレームワークであるVideoScaffoldを紹介する。
微粒な視覚的意味を保ちながら、ビデオの長さに応じてイベントの粒度を適応的に調整する。
動的にイベント境界を洗練するための予測誘導セグメンテーションを実行するElastic-Scale Event Segmentation (EES) と、セマンティックな関連するセグメントを多レベルの抽象化に徐々に集約する階層イベントコンソリデーション (HEC) である。
EESとHECは共同で作業することで、ビデオストリームが展開するにつれて、VideoScaffoldはきめ細かいフレーム理解から抽象的なイベント推論へとスムーズに移行できる。
オフラインとストリーミングの両方のビデオ理解ベンチマークにおける大規模な実験は、VideoScaffoldが最先端のパフォーマンスを達成することを実証している。
このフレームワークはモジュール式でプラグアンドプレイで、既存の画像ベースのMLLMをシームレスに継続的ビデオ理解に拡張する。
コードはhttps://github.com/zheng980629/VideoScaffold.comで公開されている。
関連論文リスト
- CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos [59.391265901911005]
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用して,時間-意味的推論による複雑な問題に対処する新しいフレームワークであるCoT-RVSを提案する。
CoT-RVSは、言語クエリ(セマンティック)にマッチする可能性のある特定のフレーム内の可視オブジェクトを分析し、すべてのフレーム(一時)の中で、懸命に観察できる各オブジェクトに対して対応するオブジェクトを選択する。
当社のフレームワークのトレーニングフリー機能は,テスト時にCoTを使用して,よりよいターゲットが出現し始めると関心の対象を更新するオンラインビデオストリーム処理の拡張も可能にしています。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - Multimodal Long Video Modeling Based on Temporal Dynamic Context [13.979661295432964]
時間的動的コンテキスト(TDC)と呼ばれるフレーム間の時間的関係を利用した動的長ビデオ符号化手法を提案する。
ビデオはフレーム間の類似性に基づいて意味的に一貫したシーンに分割し、各フレームを視覚音響エンコーダを使用してトークンにエンコードする。
極端に長いビデオを扱うために,複数のビデオセグメントから回答を段階的に抽出する学習自由連鎖戦略を提案する。
論文 参考訳(メタデータ) (2025-04-14T17:34:06Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。