論文の概要: From Frames to Clips: Efficient Key Clip Selection for Long-Form Video Understanding
- arxiv url: http://arxiv.org/abs/2510.02262v1
- Date: Thu, 02 Oct 2025 17:43:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.26178
- Title: From Frames to Clips: Efficient Key Clip Selection for Long-Form Video Understanding
- Title(参考訳): フレームからクリップへ:長めのビデオ理解のための効率的なキークリップ選択
- Authors: Guangyu Sun, Archit Singhal, Burak Uzkent, Mubarak Shah, Chen Chen, Garin Kessler,
- Abstract要約: ビデオ大言語モデル(VLM)は様々な視覚言語タスクにおいて顕著な成果を上げている。
生のビデオフレームから生成される膨大な数の視覚トークンが、モデルのコンテキストウィンドウを消費する。
分離されたキーフレームからキークリップへの選択を、短い時間的コヒーレントなセグメントに拡張することで、ビデオの理解が向上することを示す。
- 参考スコア(独自算出の注目度): 43.82717677801915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Large Language Models (VLMs) have achieved remarkable results on a variety of vision language tasks, yet their practical use is limited by the "needle in a haystack" problem: the massive number of visual tokens produced from raw video frames exhausts the model's context window. Existing solutions alleviate this issue by selecting a sparse set of frames, thereby reducing token count, but such frame-wise selection discards essential temporal dynamics, leading to suboptimal reasoning about motion and event continuity. In this work we systematically explore the impact of temporal information and demonstrate that extending selection from isolated key frames to key clips, which are short, temporally coherent segments, improves video understanding. To maintain a fixed computational budget while accommodating the larger token footprint of clips, we propose an adaptive resolution strategy that dynamically balances spatial resolution and clip length, ensuring a constant token count per video. Experiments on three long-form video benchmarks demonstrate that our training-free approach, F2C, outperforms uniform sampling up to 8.1%, 5.6%, and 10.3% on Video-MME, LongVideoBench and MLVU benchmarks, respectively. These results highlight the importance of preserving temporal coherence in frame selection and provide a practical pathway for scaling Video LLMs to real world video understanding applications. Project webpage is available at https://guangyusun.com/f2c .
- Abstract(参考訳): ビデオ大言語モデル(VLM)は、様々な視覚言語タスクにおいて顕著な成果を上げているが、それらの実用性は、生のビデオフレームから生成される膨大な数の視覚トークンが、モデルのコンテキストウィンドウを消費する"干し草の山"の問題によって制限されている。
既存のソリューションでは、フレームのまばらな集合を選択してトークン数を減らしてこの問題を軽減するが、このようなフレームワイドな選択は重要な時間的ダイナミクスを捨て、動きと事象の連続性に関する準最適推論をもたらす。
本研究では,時間的情報の影響を体系的に検討し,孤立したキーフレームからキークリップへの選択の延長が映像理解を改善することを示す。
クリップのトークンフットプリントを大きく調整しながら、固定された計算予算を維持するために、空間解像度とクリップ長を動的にバランスさせ、ビデオ当たりのトークン数を一定に確保する適応型解像度戦略を提案する。
3つのロングフォームビデオベンチマークの実験では、我々のトレーニングフリーなアプローチであるF2Cが、ビデオ-MME、LongVideoBench、MLVUベンチマークでそれぞれ8.1%、5.6%、10.3%まで均一にサンプリングされていることが示されている。
これらの結果は、フレーム選択における時間的コヒーレンスを保存することの重要性を強調し、実世界のビデオ理解アプリケーションにビデオLLMをスケールするための実践的な経路を提供する。
プロジェクトのWebページはhttps://guangyusun.com/f2c で公開されている。
関連論文リスト
- Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - Q-Frame: Query-aware Frame Selection and Multi-Resolution Adaptation for Video-LLMs [13.306662159600677]
適応型フレーム選択とマルチテンポラリスケーリングのための新しいアプローチであるビデオQFrameを紹介する。
Q-Frameは、CLIPのようなテキスト画像マッチングネットワークによって生成されたトレーニング不要のプラグイン・アンド・プレイ戦略を採用している。
ベンチマークデータセットの広範な実験を通じて,Q-Frameの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-27T11:30:51Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。