論文の概要: Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding
- arxiv url: http://arxiv.org/abs/2409.14485v3
- Date: Fri, 18 Oct 2024 15:03:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 22:30:40.629750
- Title: Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding
- Title(参考訳): Video-XL:24時間ビデオ理解のための極長ビジョン言語モデル
- Authors: Yan Shu, Peitian Zhang, Zheng Liu, Minghao Qin, Junjie Zhou, Tiejun Huang, Bo Zhao,
- Abstract要約: Video-XLは、時間スケールの効率的なビデオ理解のために設計された、超長い視覚言語モデルである。
我々のモデルは、人気のある長大映像理解ベンチマークにおいて有望な結果を得る。
- 参考スコア(独自算出の注目度): 26.72068455284472
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although current Multi-modal Large Language Models (MLLMs) demonstrate promising results in video understanding, processing extremely long videos remains an ongoing challenge. Typically, MLLMs struggle with handling thousands of visual tokens that exceed the maximum context length, and they suffer from the information decay due to token aggregation. Another challenge is the high computational cost stemming from the large number of video tokens. To tackle these issues, we propose Video-XL, an extra-long vision language model designed for efficient hour-scale video understanding. Specifically, we argue that LLMs can be adapted as effective visual condensers and propose Visual Context Latent Summarization which condenses visual contexts into highly compact forms. Extensive experiments demonstrate that our model achieves promising results on popular long video understanding benchmarks. For example, Video-XL outperforms the current state-of-the-art method on VNBench by nearly 10\% in accuracy. Moreover, Video-XL presents an impressive balance between efficiency and effectiveness, processing 2048 frames on a single 80GB GPU while achieving nearly 95% accuracy in the Needle-in-a-Haystack evaluation.
- Abstract(参考訳): 現在のMLLM(Multi-modal Large Language Models)は、ビデオ理解における有望な結果を示しているが、非常に長いビデオの処理は今も進行中の課題である。
一般的にMLLMは、最大コンテキスト長を超える数千の視覚トークンを扱うのに苦労し、トークン集約による情報減衰に悩まされる。
もう一つの課題は、大量のビデオトークンから生じる高い計算コストである。
これらの課題に対処するために,時間スケールの効率的な映像理解を目的とした超長期視覚言語モデルであるVideo-XLを提案する。
具体的には、LLMを効果的なビジュアルコンデンサとして適用し、視覚コンテキストを高度にコンパクトな形式に凝縮する視覚コンテキストラテント要約を提案する。
広範にわたる実験により,我々のモデルは,人気ビデオ理解ベンチマークにおいて有望な結果が得られることを示した。
例えば、Video-XLはVNBench上の現在の最先端の手法を10倍近い精度で上回る。
さらに、Video-XLは効率と効率の両立を示し、80GBのGPU上で2048フレームを処理すると同時に、Needle-in-a-Haystack評価において95%近い精度を実現している。
関連論文リスト
- LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Visual Context Window Extension: A New Perspective for Long Video Understanding [45.134271969594614]
我々は、コンテキストウィンドウの観点から、長いビデオ理解の課題に取り組む。
視覚的コンテキストウィンドウを拡張し,LMMを長時間の映像理解タスクに適用することを提案する。
ビデオフレーム数の増加に伴い,本手法は連続的に性能を向上する。
論文 参考訳(メタデータ) (2024-09-30T07:25:16Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Kangaroo: A Powerful Video-Language Model Supporting Long-context Video Input [34.50993235961505]
Kangarooは、長いビデオを処理するという課題に対処するための強力なビデオLMMである。
データキュレーションシステムは、視覚言語による事前学習と命令チューニングのための高品質なアノテーションを備えた大規模データセットを構築する。
長いビデオに対応するための解像度と入力フレームの数を徐々に増やしたカリキュラムトレーニングパイプライン。
論文 参考訳(メタデータ) (2024-08-28T05:34:14Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Retrieval-based Video Language Model for Efficient Long Video Question
Answering [39.474247695753725]
本稿では,検索型ビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高い$K$のビデオチャンクを特定し、選択する。
実験の結果,長編動画の編集におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。