論文の概要: VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding
- arxiv url: http://arxiv.org/abs/2406.09418v1
- Date: Thu, 13 Jun 2024 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 15:56:26.580457
- Title: VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding
- Title(参考訳): VideoGPT+: 画像とビデオエンコーダの統合によるビデオ理解の強化
- Authors: Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Khan,
- Abstract要約: ビデオLMMは、視覚入力を処理するために、画像エンコーダまたはビデオエンコーダに依存しており、それぞれに独自の制限がある。
本稿では,映像エンコーダと映像エンコーダの相補的利点(大域的時間文脈モデリング)を組み合わせたビデオGPT+を紹介する。
本稿では,VCGBench,MVBench,Zero-shotなど,複数のビデオベンチマークのパフォーマンス向上を示す。
- 参考スコア(独自算出の注目度): 15.959757105308238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building on the advances of language models, Large Multimodal Models (LMMs) have contributed significant improvements in video understanding. While the current video LMMs utilize advanced Large Language Models (LLMs), they rely on either image or video encoders to process visual inputs, each of which has its own limitations. Image encoders excel at capturing rich spatial details from frame sequences but lack explicit temporal context, which can be important in videos with intricate action sequences. On the other hand, video encoders provide temporal context but are often limited by computational constraints that lead to processing only sparse frames at lower resolutions, resulting in reduced contextual and spatial understanding. To this end, we introduce VideoGPT+, which combines the complementary benefits of the image encoder (for detailed spatial understanding) and the video encoder (for global temporal context modeling). The model processes videos by dividing them into smaller segments and applies an adaptive pooling strategy on features extracted by both image and video encoders. Our architecture showcases improved performance across multiple video benchmarks, including VCGBench, MVBench and Zero-shot question-answering. Further, we develop 112K video-instruction set using a novel semi-automatic annotation pipeline which further improves the model performance. Additionally, to comprehensively evaluate video LMMs, we present VCGBench-Diverse, covering 18 broad video categories such as lifestyle, sports, science, gaming, and surveillance videos. This benchmark with 4,354 question-answer pairs evaluates the generalization of existing LMMs on dense video captioning, spatial and temporal understanding, and complex reasoning, ensuring comprehensive assessment across diverse video types and dynamics. Code: https://github.com/mbzuai-oryx/VideoGPT-plus.
- Abstract(参考訳): 言語モデルの進歩に基づいて、LMM(Large Multimodal Models)は、ビデオ理解の大幅な改善に貢献している。
現在のビデオLMMは、高度なLarge Language Models (LLM) を使用しているが、視覚入力を処理するには画像エンコーダまたはビデオエンコーダに依存しており、それぞれに独自の制限がある。
画像エンコーダは、フレームシーケンスから豊富な空間的詳細を捉えるのが得意だが、複雑なアクションシーケンスを持つビデオでは重要な、明示的な時間的コンテキストが欠如している。
一方、ビデオエンコーダは時間的コンテキストを提供するが、低解像度のスパースフレームしか処理できない計算制約によって制限され、文脈的・空間的理解が減少する。
この目的のために,画像エンコーダとビデオエンコーダの相補的利点(詳細空間理解のための)を組み合わせたビデオGPT+(グローバル時空間モデリングのためのビデオエンコーダ)を導入する。
このモデルは、ビデオを小さなセグメントに分割して処理し、画像エンコーダとビデオエンコーダの両方で抽出された特徴に適応的なプーリング戦略を適用する。
本稿では,VCGBench,MVBench,Zero-shotなど,複数のビデオベンチマークのパフォーマンス向上を示す。
さらに,新しい半自動アノテーションパイプラインを用いた112Kビデオインストラクションセットを開発し,モデルの性能をさらに向上させる。
さらに、ビデオLMMを包括的に評価するために、VCGBench-Diverseを紹介し、ライフスタイル、スポーツ、科学、ゲーム、監視ビデオなどの18の幅広いビデオカテゴリについて紹介する。
この4,354組の質問応答対によるベンチマークは、高密度ビデオキャプション、空間的および時間的理解、複雑な推論における既存のLMMの一般化を評価し、多様なビデオタイプやダイナミックスに対する包括的評価を保証する。
コード:https://github.com/mbzuai-oryx/VideoGPT-plus
関連論文リスト
- Interpolating Video-LLMs: Toward Longer-sequence LMMs in a Training-free Manner [53.671484175063995]
ビデオ-LLMはショートビデオの処理のために事前訓練されており、長いビデオコンテンツを理解するための幅広いアプリケーションを制限する。
固定ビデオエンコーダとアライメントプロジェクタの制約を回避するための代替ビデオトークン再構成手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T17:59:55Z) - VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。
SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。
効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。