論文の概要: InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding
- arxiv url: http://arxiv.org/abs/2403.15377v1
- Date: Fri, 22 Mar 2024 17:57:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 16:30:34.391216
- Title: InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding
- Title(参考訳): InternVideo2:マルチモーダルビデオ理解のためのビデオファンデーションモデルのスケーリング
- Authors: Yi Wang, Kunchang Li, Xinhao Li, Jiashuo Yu, Yinan He, Guo Chen, Baoqi Pei, Rongkun Zheng, Jilan Xu, Zun Wang, Yansong Shi, Tianxiang Jiang, Songze Li, Hongjie Zhang, Yifei Huang, Yu Qiao, Yali Wang, Limin Wang,
- Abstract要約: InternVideo2は、アクション認識、ハイライト、対話における最先端のパフォーマンスを実現する新しいビデオファンデーションモデル(FM)である。
当社のアプローチでは,マスク付きビデオトークン再構成,クロスモーダルコントラスト学習,トークン予測といった,自己中心あるいは弱中心の学習フレームワークを統一する。
- 参考スコア(独自算出の注目度): 50.897923408865026
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce InternVideo2, a new video foundation model (ViFM) that achieves the state-of-the-art performance in action recognition, video-text tasks, and video-centric dialogue. Our approach employs a progressive training paradigm that unifies the different self- or weakly-supervised learning frameworks of masked video token reconstruction, cross-modal contrastive learning, and next token prediction. Different training stages would guide our model to capture different levels of structure and semantic information through different pretext tasks. At the data level, we prioritize the spatiotemporal consistency by semantically segmenting videos and generating video-audio-speech captions. This improves the alignment between video and text. We scale both data and model size for our InternVideo2. Through extensive experiments, we validate our designs and demonstrate the state-of-the-art performance on over 60 video and audio tasks. Notably, our model outperforms others on various video-related captioning, dialogue, and long video understanding benchmarks, highlighting its ability to reason and comprehend long temporal contexts. Code and models are available at https://github.com/OpenGVLab/InternVideo2/.
- Abstract(参考訳): InternVideo2は、アクション認識、ビデオテキストタスク、ビデオ中心対話における最先端のパフォーマンスを実現する、新しいビデオファンデーションモデル(ViFM)である。
当社のアプローチでは,マスク付きビデオトークン再構成,クロスモーダルコントラスト学習,次のトークン予測といった,自己あるいは弱教師付き学習フレームワークを統一する,プログレッシブトレーニングパラダイムを採用している。
異なるトレーニングステージは、異なるプレテキストタスクを通じて異なるレベルの構造と意味情報をキャプチャするために、私たちのモデルを導くでしょう。
データレベルでは、ビデオのセグメンテーションと音声・音声のキャプションの生成により、時空間の一貫性を優先する。
これにより、ビデオとテキストのアライメントが改善される。
InternVideo2では、データとモデルサイズの両方をスケールしています。
広範にわたる実験を通じて、60以上のビデオおよびオーディオタスクにおいて、我々の設計を検証し、最先端のパフォーマンスを実証する。
特に,ビデオ関連キャプション,対話,長いビデオ理解のベンチマークでは,時間的文脈の解釈や理解能力に優れていた。
コードとモデルはhttps://github.com/OpenGVLab/InternVideo2/.comで公開されている。
関連論文リスト
- Learning Video Context as Interleaved Multimodal Sequences [40.15446453928028]
MovieSeqは、ビデオコンテキストを理解するための幅広い課題に対処するために開発されたマルチモーダル言語モデルである。
私たちの中核的な考え方は、動画をインターリーブされたマルチモーダルシーケンスとして表現することであり、外部知識データベースをリンクするか、オフラインモデルを使用するかのどちらかです。
有効性を示すため,MovieSeqの性能を6つのデータセットで検証した。
論文 参考訳(メタデータ) (2024-07-31T17:23:57Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T16:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。