論文の概要: SMAUG: Sparse Masked Autoencoder for Efficient Video-Language
Pre-training
- arxiv url: http://arxiv.org/abs/2211.11446v2
- Date: Tue, 22 Nov 2022 17:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 15:55:33.919245
- Title: SMAUG: Sparse Masked Autoencoder for Efficient Video-Language
Pre-training
- Title(参考訳): SMAUG: 効率的なビデオランゲージ事前学習のためのスパースマスクオートエンコーダ
- Authors: Yuanze Lin, Chen Wei, Huiyu Wang, Alan Yuille, Cihang Xie
- Abstract要約: 我々は,ビデオ言語モデルのための効率的な事前学習フレームワークであるSMAUGを開発した。
マスキング戦略は視覚的モダリティとテキスト的モダリティの両方を考慮し、より優れたクロスモーダルアライメントを提供する。
時空トークンスペーシフィケーションモジュールは、事前トレーニングのための「重要な」空間領域と時間フレームのみを選択する。
- 参考スコア(独自算出の注目度): 25.256564703540953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-language pre-training is crucial for learning powerful multi-modal
representation. However, it typically requires a massive amount of computation.
In this paper, we develop SMAUG, an efficient pre-training framework for
video-language models. The foundation component in SMAUG is masked
autoencoders. Different from prior works which only mask textual inputs, our
masking strategy considers both visual and textual modalities, providing a
better cross-modal alignment and saving more pre-training costs. On top of
that, we introduce a space-time token sparsification module, which leverages
context information to further select only "important" spatial regions and
temporal frames for pre-training. Coupling all these designs allows our method
to enjoy both competitive performances on text-to-video retrieval and video
question answering tasks, and much less pre-training costs by 1.9X or more. For
example, our SMAUG only needs about 50 NVIDIA A6000 GPU hours for pre-training
to attain competitive performances on these two video-language tasks across six
popular benchmarks.
- Abstract(参考訳): 強力なマルチモーダル表現を学ぶには,ビデオ言語事前学習が不可欠である。
しかし、通常は大量の計算を必要とする。
本稿では,ビデオ言語モデルのための効率的な事前学習フレームワークであるSMAUGを開発する。
SMAUGの基盤コンポーネントはマスク付きオートエンコーダである。
テキスト入力のみをマスクする先行作品とは異なり、マスキング戦略は視覚とテキストのモダリティを考慮し、より優れたクロスモーダルアライメントを提供し、事前トレーニングコストを節約する。
さらに,事前学習のための"重要"空間領域と時間枠のみを選択するために,コンテキスト情報を活用する時空トークンスパーシフィケーションモジュールを導入する。
これらすべての設計を結合することで,テキスト対ビデオ検索とビデオ質問応答タスクの競合性能を享受できると同時に,事前トレーニングコストを1.9倍以上削減できる。
例えば、私たちのSMAUGは、この2つのビデオ言語タスクで6つの人気のあるベンチマークで競合するパフォーマンスを達成するために、事前トレーニングに約50 NVIDIA A6000 GPU時間しか必要としません。
関連論文リスト
- Extending Video Masked Autoencoders to 128 frames [75.01251612160829]
ビデオ理解は、自己指導型事前学習目標による強力なパフォーマンスを示す最近のビデオファンデーションモデルにおいて大きな進歩をみせている。
しかし、MAE事前学習を利用した以前の研究の大部分は、ハードウェアメモリと、メモリ集約型の自己保持復号化によるビデオ長の低下により、比較的短いビデオ表現(長さ16 / 32 フレーム)に重点を置いていた。
より長いビデオシーケンス(128フレーム)のトレーニングが可能で、より一般的なランダムよりも優れたパフォーマンスが得られるトークンの優先順位付けのための効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-11-20T20:00:38Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Masked Contrastive Pre-Training for Efficient Video-Text Retrieval [37.05164804180039]
我々は、シンプルだが効果的なビデオ言語事前学習(VidLP)フレームワーク、Masked Contrastive Video-Language Pretraining(MAC)を提案する。
我々のMACは、VidLPモデルにおける映像表現の空間的および時間的冗長性を低減することを目的としている。
これらの設計を結合することで、FLOP(60%オフ)の削減、事前トレーニング(3倍)の高速化、性能向上など、効率的なエンドツーエンドの事前トレーニングが可能になる。
論文 参考訳(メタデータ) (2022-12-02T05:44:23Z) - Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。
我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。
我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-12T09:08:27Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Masking Modalities for Cross-modal Video Retrieval [93.10669981708878]
ビデオエンコーダを事前訓練するための一般的な戦略は、付随する音声を弱い監督力として使用することである。
ビデオエンコーダの事前学習には,映像のモダリティ,すなわち外見,音,書き起こされた音声の監督が用いられる。
How2R, YouCook2, Condensed Moviesデータセット上で, ビデオ検索のための"モダリティマスキング"事前学習手法の優れた性能を示す。
論文 参考訳(メタデータ) (2021-11-01T23:55:04Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。