論文の概要: FlexSelect: Flexible Token Selection for Efficient Long Video Understanding
- arxiv url: http://arxiv.org/abs/2506.00993v1
- Date: Sun, 01 Jun 2025 12:49:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.891633
- Title: FlexSelect: Flexible Token Selection for Efficient Long Video Understanding
- Title(参考訳): FlexSelect: 効率的な長時間ビデオ理解のためのフレキシブルなトークン選択
- Authors: Yunzhu Zhang, Yu Lu, Tianyi Wang, Fengyun Rao, Yi Yang, Linchao Zhu,
- Abstract要約: 長ビデオ処理のためのフレキシブルで効率的なトークン選択戦略であるFlexSelectを提案する。
クロスモーダルなアテンションパターンを活用することで、最も意味のあるコンテンツを識別し、保持する。
VideoMME、MLVU、LongVB、LVBenchなど、複数の長ビデオベンチマークで大きく伸びている。
- 参考スコア(独自算出の注目度): 51.50746944241539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form video understanding poses a significant challenge for video large language models (VideoLLMs) due to prohibitively high computational and memory demands. In this paper, we propose FlexSelect, a flexible and efficient token selection strategy for processing long videos. FlexSelect identifies and retains the most semantically relevant content by leveraging cross-modal attention patterns from a reference transformer layer. It comprises two key components: (1) a training-free token ranking pipeline that leverages faithful cross-modal attention weights to estimate each video token's importance, and (2) a rank-supervised lightweight selector that is trained to replicate these rankings and filter redundant tokens. This generic approach can be seamlessly integrated into various VideoLLM architectures, such as LLaVA-Video, InternVL and Qwen-VL, serving as a plug-and-play module to extend their temporal context length. Empirically, FlexSelect delivers strong gains across multiple long-video benchmarks including VideoMME, MLVU, LongVB, and LVBench. Moreover, it achieves significant speed-ups (for example, up to 9 times on a LLaVA-Video-7B model), highlighting FlexSelect's promise for efficient long-form video understanding. Project page available at: https://yunzhuzhang0918.github.io/flex_select
- Abstract(参考訳): ビデオ大言語モデル(VideoLLMs)では,ビデオの長大な理解が大きな課題となっている。
本稿では,長編ビデオ処理のためのフレキシブルかつ効率的なトークン選択戦略であるFlexSelectを提案する。
FlexSelectは、参照トランスフォーマー層からのクロスモーダルアテンションパターンを活用することで、最も意味のあるコンテンツを識別し、保持します。
1)ビデオトークンの重要性を推定するために、忠実なクロスモーダルアテンション重みを利用するトレーニングフリートークンランキングパイプラインと、(2)これらのランキングを再現し、冗長トークンをフィルタリングするように訓練されたランク管理軽量セレクタである。
この一般的なアプローチは、LLaVA-Video、InternVL、Qwen-VLといった様々なビデオLLMアーキテクチャにシームレスに統合することができ、時間的コンテキスト長を拡張するためのプラグイン・アンド・プレイモジュールとして機能する。
実証的にFlexSelectは、VideoMME、MLVU、LongVB、LVBenchなど、複数の長ビデオベンチマークで大きく伸びている。
さらに、LLaVA-Video-7Bモデルで最大9倍のスピードアップを実現し、FlexSelectが効率的なロングフォームビデオ理解を約束していることを強調している。
https://yunzhuzhang0918.github.io/flex_select
関連論文リスト
- LV-MAE: Learning Long Video Representations through Masked-Embedding Autoencoders [9.996331443220651]
長ビデオマスク埋め込みオートエンコーダ(LV-MAE)を紹介する。
LV-MAEは長期表現のための自己教師型学習フレームワークである。
3つの長ビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-04-04T14:56:27Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models [51.712700398020075]
本研究では,空間的セマンティクスと長時間の時間的コンテキストを協調的にキャプチャできる学習自由ビデオ大言語モデル(LLM)を提案する。
これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプルフレームの特徴を効果的に集約することで実現される。
実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
論文 参考訳(メタデータ) (2024-07-22T17:58:04Z) - Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA [40.21221568678641]
広い時間間隔にまたがるロングフォームビデオは、非常に冗長な情報である。
正しい応答を生成するために必要な全ての情報は、しばしばフレームの小さなサブセットに含まれる。
近年の文献では、LVQAベンチマークにおける大きな言語モデルの使用を探求し、例外的な性能を達成している。
論文 参考訳(メタデータ) (2024-06-13T17:59:16Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。