論文の概要: InternVideo: General Video Foundation Models via Generative and
Discriminative Learning
- arxiv url: http://arxiv.org/abs/2212.03191v2
- Date: Wed, 7 Dec 2022 12:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 16:07:22.052331
- Title: InternVideo: General Video Foundation Models via Generative and
Discriminative Learning
- Title(参考訳): InternVideo: 生成的および差別的学習による一般ビデオ財団モデル
- Authors: Yi Wang, Kunchang Li, Yizhuo Li, Yinan He, Bingkun Huang, Zhiyu Zhao,
Hongjie Zhang, Jilan Xu, Yi Liu, Zun Wang, Sen Xing, Guo Chen, Junting Pan,
Jiashuo Yu, Yali Wang, Limin Wang, Yu Qiao
- Abstract要約: 動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 52.69422763715118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The foundation models have recently shown excellent performance on a variety
of downstream tasks in computer vision. However, most existing vision
foundation models simply focus on image-level pretraining and adpation, which
are limited for dynamic and complex video-level understanding tasks. To fill
the gap, we present general video foundation models, InternVideo, by taking
advantage of both generative and discriminative self-supervised video learning.
Specifically, InternVideo efficiently explores masked video modeling and
video-language contrastive learning as the pretraining objectives, and
selectively coordinates video representations of these two complementary
frameworks in a learnable manner to boost various video applications. Without
bells and whistles, InternVideo achieves state-of-the-art performance on 39
video datasets from extensive tasks including video action
recognition/detection, video-language alignment, and open-world video
applications. Especially, our methods can obtain 91.1% and 77.2% top-1 accuracy
on the challenging Kinetics-400 and Something-Something V2 benchmarks,
respectively. All of these results effectively show the generality of our
InternVideo for video understanding. The code will be released at
https://github.com/OpenGVLab/InternVideo .
- Abstract(参考訳): 基礎モデルは最近、コンピュータビジョンにおける様々な下流タスクにおいて優れたパフォーマンスを示している。
しかし、既存の視覚基盤モデルの多くは、ダイナミックで複雑なビデオレベルの理解タスクに限られる画像レベルの事前学習と適応にのみ焦点をあてている。
このギャップを埋めるために,生成的および判別的自己教師付きビデオ学習を活用し,一般のビデオ基盤モデルであるinternvideoを提案する。
特に、InternVideoは、マスク付きビデオモデリングとビデオ言語コントラスト学習を事前学習対象として効率的に探索し、これらの2つの補完フレームワークのビデオ表現を学習可能な方法で選択的にコーディネートし、様々なビデオアプリケーションを強化する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを達成する。
特に,提案手法は,Kinetics-400とSomething V2ベンチマークでそれぞれ91.1%と77.2%のTop-1精度が得られる。
これらの結果は、ビデオ理解のためのInternVideoの汎用性を示すものだ。
コードはhttps://github.com/OpenGVLab/InternVideoで公開される。
関連論文リスト
- InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Harvest Video Foundation Models via Efficient Post-Pretraining [67.30842563833185]
本稿では,画像から映像基盤モデルを抽出する効率的なフレームワークを提案する。
提案手法は,入力ビデオパッチをランダムにドロップし,プレトレーニング後の入力テキストをマスクアウトすることで,直感的に簡単である。
提案手法は,プレトレーニング済みの映像基盤モデルに匹敵する,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-30T14:06:16Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - VideoOFA: Two-Stage Pre-Training for Video-to-Text Generation [43.90887811621963]
本稿では,ビデオキャプションや質問応答などのビデオ・テキスト生成タスクのための2段階事前学習フレームワークを提案する。
生成エンコーダ・デコーダモデルは、まず、画像言語データに基づいて、基本概念を学ぶために、共同で事前訓練される。
その結果、VoiceOFAモデルは、4つのVideo Captioningベンチマークで最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2023-05-04T23:27:21Z) - Broaden Your Views for Self-Supervised Video Learning [97.52216510672251]
ビデオのための自己教師型学習フレームワークBraVeを紹介する。
BraVeでは、ビューの1つがビデオの狭い一時的なウィンドウにアクセスでき、もう1つのビューはビデオコンテンツに広くアクセスできます。
BraVeが標準ビデオおよびオーディオ分類ベンチマークで自己監督表現学習の最先端の結果を達成することを実証します。
論文 参考訳(メタデータ) (2021-03-30T17:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。