論文の概要: Visual Context Window Extension: A New Perspective for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2409.20018v1
- Date: Mon, 30 Sep 2024 07:25:16 GMT
- ステータス: メタデータ翻訳待ち、スコア計算待ち
- システム内更新日: 2024-10-02 20:51:52.482955
- Title: Visual Context Window Extension: A New Perspective for Long Video Understanding
- Title(参考訳): Visual Context Window Extension: 長いビデオ理解のための新しい視点
- Authors: Hongchen Wei, Zhenzhong Chen,
- Abstract要約: 我々は、コンテキストウィンドウの観点から、長いビデオ理解の課題に取り組む。
視覚的コンテキストウィンドウを拡張し,LMMを長時間の映像理解タスクに適用することを提案する。
ビデオフレーム数の増加に伴い,本手法は連続的に性能を向上する。
- 参考スコア(独自算出の注目度): 45.134271969594614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) have demonstrated impressive performance in short video understanding tasks but face great challenges when applied to long video understanding. In contrast, Large Language Models (LLMs) exhibit outstanding capabilities in modeling long texts. Existing work attempts to address this issue by introducing long video-text pairs during training. However, these approaches require substantial computational and data resources. In this paper, we tackle the challenge of long video understanding from the perspective of context windows, aiming to apply LMMs to long video tasks without retraining on long video datasets. We first conduct an in-depth analysis of why pretrained LMMs struggle to understand lengthy video content, identifying that discrepancies between visual and language modalities lead to different context windows for visual and language tokens, making it difficult to directly extend the visual tokens to match the language context window. Based on this, we propose to adapt LMMs for long video understanding tasks by extending the visual context window, eliminating the need for retraining on large scalelong video datasets. To further mitigate the significant memory consumption caused by long sequences, we introduce a progressive pooling inference strategy that selectively adjusts the spatial resolution of frame embeddings, reducing the number of visual tokens while retaining important spatial information. Across multiple long video understanding benchmarks, our method consistently improves the performance as the number of video frames increases. On the MLVU benchmark, our method outperforms GPT-4o, even though our model size is only 7B. Additionally, in the 256-frame setting, our method reduces memory usage by approximately 45% compared to the baseline, without introducing any performance loss.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、短いビデオ理解タスクにおいて印象的な性能を示してきたが、長いビデオ理解に適用した場合、大きな課題に直面している。
対照的に、Large Language Models (LLMs) は長文のモデリングにおいて優れた機能を示す。
既存の作業は、トレーニング中に長いビデオテキストペアを導入することで、この問題に対処しようとするものだ。
しかし、これらのアプローチには相当な計算資源とデータ資源が必要である。
本稿では,LMMを長いビデオデータセットに再学習することなく,長いビデオタスクに適用することを目的とした,コンテキストウィンドウの観点からの長いビデオ理解の課題に取り組む。
まず、事前学習したLMMが長大なビデオコンテンツを理解するのになぜ苦労しているかを詳細に分析し、視覚的・言語的モダリティの相違が視覚的・言語的トークンの異なるコンテキストウィンドウにつながることを確認し、視覚的トークンを直接拡張して言語的コンテキストウィンドウに適合させることが困難であることを示す。
そこで本稿では,視覚的コンテキストウィンドウを拡張し,大規模ビデオデータセットの再トレーニングを不要にすることで,LMMを長時間ビデオ理解タスクに適用することを提案する。
長いシーケンスによる大きなメモリ消費を軽減するため,フレーム埋め込みの空間分解能を選択的に調整し,重要な空間情報を保持しながら視覚トークンの数を減らすプログレッシブプール推論戦略を導入する。
複数の長大なビデオ理解ベンチマークにおいて,ビデオフレーム数の増加に伴い,提案手法は一貫して性能の向上を図っている。
MLVUベンチマークでは,モデルサイズが7Bであるにもかかわらず,GPT-4oよりも優れていた。
さらに256フレーム設定では,メモリ使用量をベースラインに比べて約45%削減する。
関連論文リスト
- LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - LLMs Meet Long Video: Advancing Long Video Question Answering with An Interactive Visual Adapter in LLMs [22.696090318037925]
長いビデオ理解は、マルチメディアと人工知能の交差において、重要かつ進行中の課題である。
大型言語モデル(LLM)における対話型ビジュアルアダプタ(IVA)を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:56:52Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Retrieval-based Video Language Model for Efficient Long Video Question
Answering [39.474247695753725]
本稿では,検索型ビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高い$K$のビデオチャンクを特定し、選択する。
実験の結果,長編動画の編集におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。