論文の概要: Harvest Video Foundation Models via Efficient Post-Pretraining
- arxiv url: http://arxiv.org/abs/2310.19554v1
- Date: Mon, 30 Oct 2023 14:06:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 19:53:19.455910
- Title: Harvest Video Foundation Models via Efficient Post-Pretraining
- Title(参考訳): 効率的なプレトレーニングによる映像基礎モデルの構築
- Authors: Yizhuo Li, Kunchang Li, Yinan He, Yi Wang, Yali Wang, Limin Wang, Yu
Qiao, Ping Luo
- Abstract要約: 本稿では,画像から映像基盤モデルを抽出する効率的なフレームワークを提案する。
提案手法は,入力ビデオパッチをランダムにドロップし,プレトレーニング後の入力テキストをマスクアウトすることで,直感的に簡単である。
提案手法は,プレトレーニング済みの映像基盤モデルに匹敵する,最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 67.30842563833185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building video-language foundation models is costly and difficult due to the
redundant nature of video data and the lack of high-quality video-language
datasets. In this paper, we propose an efficient framework to harvest video
foundation models from image ones. Our method is intuitively simple by randomly
dropping input video patches and masking out input text during the
post-pretraining procedure. The patch dropping boosts the training efficiency
significantly and text masking enforces the learning of cross-modal fusion. We
conduct extensive experiments to validate the effectiveness of our method on a
wide range of video-language downstream tasks including various zero-shot
tasks, video question answering, and video-text retrieval. Despite its
simplicity, our method achieves state-of-the-art performances, which are
comparable to some heavily pretrained video foundation models. Our method is
extremely efficient and can be trained in less than one day on 8 GPUs,
requiring only WebVid-10M as pretraining data. We hope our method can serve as
a simple yet strong counterpart for prevalent video foundation models, provide
useful insights when building them, and make large pretrained models more
accessible and sustainable. This is part of the InternVideo project
\url{https://github.com/OpenGVLab/InternVideo}.
- Abstract(参考訳): ビデオデータの冗長性や高品質なビデオ言語データセットの欠如のため、ビデオ言語基盤モデルの構築は費用がかかり難い。
本稿では,画像から映像ファンデーションモデルを取り出すための効率的なフレームワークを提案する。
提案手法は,入力ビデオパッチをランダムにドロップし,プレトレーニング後の入力テキストをマスクアウトすることで,直感的に簡単である。
パッチドロップはトレーニング効率を大幅に向上させ、テキストマスキングはクロスモーダル融合の学習を強制する。
提案手法の有効性を検証するために,ゼロショットタスク,ビデオ質問応答,ビデオテキスト検索など,幅広い下流課題において広範囲な実験を行った。
その単純さにもかかわらず、本手法は、事前訓練されたビデオ基盤モデルに匹敵する最先端のパフォーマンスを実現する。
この手法は非常に効率的で、8gpuで1日未満でトレーニングでき、プリトレーニングデータとしてwebvid-10mだけを必要とする。
当社の手法は,ビデオファンデーションモデルをシンプルかつ強力なものにし,構築時に有用な洞察を提供し,事前学習された大規模モデルをよりアクセスし,持続可能なものにすることを願っている。
これはInternVideoプロジェクト \url{https://github.com/OpenGVLab/InternVideo} の一部である。
関連論文リスト
- T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs [102.66246727371583]
そこで我々は,T2Vidと呼ばれるビデオライクなサンプルを合成し,学習コーパスの多様性を高める手法を開発した。
提案手法は,長いビデオサンプルをトレーニングすることなく,長いビデオ理解の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data [19.210471935816273]
本稿では,映像テキスト理解のための新しい評価タスク,すなわち,対実的拡張データ(RCAD)と新しいFeint6Kデータセットを提案する。
新しい評価タスクを成功させるためには、モデルはクロスフレーム推論からビデオの包括的理解を導き出さなければならない。
提案手法は,複数のビデオテキストモデルに適用した場合に,より識別的な動作埋め込みを学習し,Feint6Kの結果を改善する。
論文 参考訳(メタデータ) (2024-07-18T01:55:48Z) - Analyzing Zero-Shot Abilities of Vision-Language Models on Video
Understanding Tasks [6.925770576386087]
本稿では,ゼロショット環境における映像理解タスクの評価において,画像テキストモデルの一般化能力について詳細に検討する。
実験の結果,映像テキストモデルでは,映像AR,ビデオRT,ビデオMCに優れた性能を示すことがわかった。
これらの結果は、コストのかかる事前学習のステップを回避しつつ、基礎的な画像テキストモデルを一連のビデオタスクに適応する利点を浮き彫りにした。
論文 参考訳(メタデータ) (2023-10-07T20:57:54Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。