論文の概要: Visual Context Window Extension: A New Perspective for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2409.20018v2
- Date: Wed, 2 Oct 2024 09:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 16:08:18.078902
- Title: Visual Context Window Extension: A New Perspective for Long Video Understanding
- Title(参考訳): Visual Context Window Extension: 長いビデオ理解のための新しい視点
- Authors: Hongchen Wei, Zhenzhong Chen,
- Abstract要約: 我々は、コンテキストウィンドウの観点から、長いビデオ理解の課題に取り組む。
視覚的コンテキストウィンドウを拡張し,LMMを長時間の映像理解タスクに適用することを提案する。
ビデオフレーム数の増加に伴い,本手法は連続的に性能を向上する。
- 参考スコア(独自算出の注目度): 45.134271969594614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) have demonstrated impressive performance in short video understanding tasks but face great challenges when applied to long video understanding. In contrast, Large Language Models (LLMs) exhibit outstanding capabilities in modeling long texts. Existing work attempts to address this issue by introducing long video-text pairs during training. However, these approaches require substantial computational and data resources. In this paper, we tackle the challenge of long video understanding from the perspective of context windows, aiming to apply LMMs to long video tasks without retraining on long video datasets. We first conduct an in-depth analysis of why pretrained LMMs struggle to understand lengthy video content, identifying that discrepancies between visual and language modalities lead to different context windows for visual and language tokens, making it difficult to directly extend the visual tokens to match the language context window. Based on this, we propose to adapt LMMs for long video understanding tasks by extending the visual context window, eliminating the need for retraining on large scalelong video datasets. To further mitigate the significant memory consumption caused by long sequences, we introduce a progressive pooling inference strategy that selectively adjusts the spatial resolution of frame embeddings, reducing the number of visual tokens while retaining important spatial information. Across multiple long video understanding benchmarks, our method consistently improves the performance as the number of video frames increases. On the MLVU benchmark, our method outperforms GPT-4o, even though our model size is only 7B. Additionally, in the 256-frame setting, our method reduces memory usage by approximately 45% compared to the baseline, without introducing any performance loss.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、短いビデオ理解タスクにおいて印象的な性能を示してきたが、長いビデオ理解に適用した場合、大きな課題に直面している。
対照的に、Large Language Models (LLMs) は長文のモデリングにおいて優れた機能を示す。
既存の作業は、トレーニング中に長いビデオテキストペアを導入することで、この問題に対処しようとするものだ。
しかし、これらのアプローチには相当な計算資源とデータ資源が必要である。
本稿では,LMMを長いビデオデータセットに再学習することなく,長いビデオタスクに適用することを目的とした,コンテキストウィンドウの観点からの長いビデオ理解の課題に取り組む。
まず、事前学習したLMMが長大なビデオコンテンツを理解するのになぜ苦労しているかを詳細に分析し、視覚的・言語的モダリティの相違が視覚的・言語的トークンの異なるコンテキストウィンドウにつながることを確認し、視覚的トークンを直接拡張して言語的コンテキストウィンドウに適合させることが困難であることを示す。
そこで本稿では,視覚的コンテキストウィンドウを拡張し,大規模ビデオデータセットの再トレーニングを不要にすることで,LMMを長時間ビデオ理解タスクに適用することを提案する。
長いシーケンスによる大きなメモリ消費を軽減するため,フレーム埋め込みの空間分解能を選択的に調整し,重要な空間情報を保持しながら視覚トークンの数を減らすプログレッシブプール推論戦略を導入する。
複数の長大なビデオ理解ベンチマークにおいて,ビデオフレーム数の増加に伴い,提案手法は一貫して性能の向上を図っている。
MLVUベンチマークでは,モデルサイズが7Bであるにもかかわらず,GPT-4oよりも優れていた。
さらに256フレーム設定では,メモリ使用量をベースラインに比べて約45%削減する。
関連論文リスト
- LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding [26.72068455284472]
Video-XLは、時間スケールの効率的なビデオ理解のために設計された、超長い視覚言語モデルである。
我々のモデルは、人気のある長大映像理解ベンチマークにおいて有望な結果を得る。
論文 参考訳(メタデータ) (2024-09-22T15:13:31Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。