論文の概要: Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding
- arxiv url: http://arxiv.org/abs/2409.14485v2
- Date: Fri, 18 Oct 2024 15:03:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 22:30:40.633261
- Title: Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding
- Title(参考訳): Video-XL:24時間ビデオ理解のための極長ビジョン言語モデル
- Authors: Yan Shu, Peitian Zhang, Zheng Liu, Minghao Qin, Junjie Zhou, Tiejun Huang, Bo Zhao,
- Abstract要約: Video-XLは、時間スケールの効率的なビデオ理解のために設計された、超長い視覚言語モデルである。
我々のモデルは,限られた画像データで訓練されているにも関わらず,一般的な長大映像理解ベンチマークにおいて有望な結果が得られる。
我々は、ビデオ要約、監視異常検出、広告配置識別などの長大なビデオアプリケーションにとって、ビデオ-XLが貴重なツールになることを期待している。
- 参考スコア(独自算出の注目度): 26.72068455284472
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although current Multi-modal Large Language Models (MLLMs) demonstrate promising results in video understanding, processing extremely long videos remains an ongoing challenge. Typically, MLLMs struggle with handling thousands of tokens that exceed the maximum context length of LLMs, and they experience reduced visual clarity due to token aggregation. Another challenge is the high computational cost stemming from the large number of video tokens. To tackle these issues, we propose Video-XL, an extra-long vision language model designed for efficient hour-scale video understanding. Specifically, we argue that LLMs can be adapted as effective visual condensers and introduce Visual Context Latent Summarization, which condenses visual contexts into highly compact forms. Extensive experiments demonstrate that our model achieves promising results on popular long video understanding benchmarks, despite being trained on limited image data. Moreover, Video-XL strikes a promising balance between efficiency and effectiveness, processing 1024 frames on a single 80GB GPU while achieving nearly 100\% accuracy in the Needle-in-a-Haystack evaluation. We envision Video-XL becoming a valuable tool for long video applications such as video summarization, surveillance anomaly detection, and Ad placement identification.
- Abstract(参考訳): 現在のMLLM(Multi-modal Large Language Models)は、ビデオ理解における有望な結果を示しているが、非常に長いビデオの処理は今も進行中の課題である。
通常、MLLMはLLMの最大コンテキスト長を超える何千ものトークンを扱うのに苦労し、トークン集約による視覚的明瞭度の低下を経験する。
もう一つの課題は、大量のビデオトークンから生じる高い計算コストである。
これらの課題に対処するために,時間スケールの効率的な映像理解を目的とした超長期視覚言語モデルであるVideo-XLを提案する。
具体的には、LLMを効果的な視覚コンデンサとして適用し、視覚コンテキストを高度にコンパクトな形式に凝縮する視覚コンテキストラテント要約を導入することを論じる。
広範にわたる実験により,画像データに制限があるにもかかわらず,人気ビデオ理解ベンチマークで有望な結果が得られた。
さらに、Video-XLは80GBのGPU上で1024フレームを処理し、Needdle-in-a-Haystack評価においてほぼ100%の精度を実現している。
我々は、ビデオ要約、監視異常検出、広告配置識別などの長大なビデオアプリケーションにとって、ビデオ-XLが貴重なツールになることを期待している。
関連論文リスト
- InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
長時間ビデオ理解のための時間的視覚的冗長性と知識的冗長性を両立させるトレーニングフリー手法である$bfReTaKe$を導入する。
DPSelectは、人間の映像知覚と密接に一致している視覚的特徴に基づいて、局所的な最大ピーク距離を持つビデオを特定する。
PivotKVはピボットとしてVideoBenchsを使用し、注意スコアの低い非テキストトークンに対してKVキャッシュ圧縮を実行する。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z) - Dynamic-VLM: Simple Dynamic Visual Token Compression for VideoLLM [28.64108439552772]
プロプライエタリなモデルから生成された大規模合成データセットを紹介する。
また、計算効率と性能のバランスをとる動的ビジュアルトークン圧縮アーキテクチャについても検討する。
提案手法は,様々な映像タスクにまたがって最先端の成果を達成し,印象的な一般化を示す。
論文 参考訳(メタデータ) (2024-12-12T18:20:41Z) - AdaCM$^2$: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction [10.579335027350263]
AdaCM$2$は、ビデオストリーム上のビデオテキストアライメントに対する適応型クロスモダリティメモリリダクションアプローチである。
最大65%のGPUメモリ消費削減で、LVUデータセットの複数のタスク間で4.5%の改善を実現している。
論文 参考訳(メタデータ) (2024-11-19T18:04:13Z) - TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。
ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。
本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文 参考訳(メタデータ) (2024-11-17T13:08:29Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。