論文の概要: Masked Contrastive Pre-Training for Efficient Video-Text Retrieval
- arxiv url: http://arxiv.org/abs/2212.00986v1
- Date: Fri, 2 Dec 2022 05:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 15:39:00.002551
- Title: Masked Contrastive Pre-Training for Efficient Video-Text Retrieval
- Title(参考訳): 効率的なビデオテキスト検索のためのマスキングコントラスト事前学習
- Authors: Fangxun Shu, Biaolong Chen, Yue Liao, Ke Gao, Shuwen Xiao, Wenyu Sun,
Xiaobo Li, Yousong Zhu, Jinqiao Wang and Si Liu
- Abstract要約: 我々は、シンプルだが効果的なビデオ言語事前学習(VidLP)フレームワーク、Masked Contrastive Video-Language Pretraining(MAC)を提案する。
我々のMACは、VidLPモデルにおける映像表現の空間的および時間的冗長性を低減することを目的としている。
これらの設計を結合することで、FLOP(60%オフ)の削減、事前トレーニング(3倍)の高速化、性能向上など、効率的なエンドツーエンドの事前トレーニングが可能になる。
- 参考スコア(独自算出の注目度): 38.154572674025395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a simple yet effective end-to-end Video-language Pre-training
(VidLP) framework, Masked Contrastive Video-language Pretraining (MAC), for
video-text retrieval tasks. Our MAC aims to reduce video representation's
spatial and temporal redundancy in the VidLP model by a mask sampling mechanism
to improve pre-training efficiency. Comparing conventional temporal sparse
sampling, we propose to randomly mask a high ratio of spatial regions and only
feed visible regions into the encoder as sparse spatial sampling. Similarly, we
adopt the mask sampling technique for text inputs for consistency. Instead of
blindly applying the mask-then-prediction paradigm from MAE, we propose a
masked-then-alignment paradigm for efficient video-text alignment. The
motivation is that video-text retrieval tasks rely on high-level alignment
rather than low-level reconstruction, and multimodal alignment with masked
modeling encourages the model to learn a robust and general multimodal
representation from incomplete and unstable inputs. Coupling these designs
enables efficient end-to-end pre-training: reduce FLOPs (60% off), accelerate
pre-training (by 3x), and improve performance. Our MAC achieves
state-of-the-art results on various video-text retrieval datasets, including
MSR-VTT, DiDeMo, and ActivityNet. Our approach is omnivorous to input
modalities. With minimal modifications, we achieve competitive results on
image-text retrieval tasks.
- Abstract(参考訳): ビデオテキスト検索タスクに対して,ビデオ言語事前学習(VidLP)フレームワークであるMasked Contrastive Video-Language Pretraining(MAC)を提案する。
我々のMACは,VidLPモデルにおける映像表現の空間的・時間的冗長性をマスクサンプリング機構により低減し,事前学習効率を向上させることを目的としている。
従来の時空間サンプリングと比較して,空間領域の高比をランダムにマスキングし,空間サンプリングとしてエンコーダに可視領域を供給することを提案する。
同様に,テキスト入力のためのマスクサンプリング技術も採用している。
mae のマスキング予測パラダイムを盲目的に適用する代わりに,効率的なビデオテキストアライメントのためのマスキング予測パラダイムを提案する。
モチベーションは、ビデオテキスト検索タスクが低レベルリコンストラクションよりも高レベルアライメントに依存しており、マスキングモデリングとのマルチモーダルアライメントは、不完全で不安定な入力から堅牢で一般的なマルチモーダル表現を学ぶことを奨励している。
これらの設計を結合することで、FLOP(60%オフ)の削減、事前トレーニング(3倍)の高速化、性能向上など、効率的なエンドツーエンドの事前トレーニングが可能になる。
我々のMACは、MSR-VTT、DiDeMo、ActivityNetなど、様々なビデオテキスト検索データセットの最先端結果を達成する。
私たちのアプローチは入力モダリティに全能的です。
最小限の変更で、画像テキスト検索タスクの競合的な結果が得られる。
関連論文リスト
- Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [90.90962457393374]
我々は、独立した画像マスクと画像テキストペアを用いて、マスクとテキストの厳密な対応を解放する。
テキスト記述におけるマス予測と実体の信頼度を利用した弱教師付きオープン語彙セグメンテーションフレームワーク(Uni-OVSeg)を提案する。
テキストのみの弱教師付き手法と比較して、私たちのUni-OVSegはADE20Kデータセットで15.5% mIoUを大幅に改善した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - MaskINT: Video Editing via Interpolative Non-autoregressive Masked
Transformers [32.25611468711403]
最先端のアプローチは主にこれらのタスクを達成するために拡散モデルに依存している。
本研究では、テキストベースのビデオ編集プロセスを2段階に分割することで、この問題に対処する。
最初の段階では、既存のテキストと画像の拡散モデルを利用して、追加の微調整をすることなく、いくつかの編集を同時に行う。
第2段階では、非自己回帰マスク生成変換器上に構築されたMaskINTと呼ばれる効率的なモデルを導入する。
論文 参考訳(メタデータ) (2023-12-19T07:05:39Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval [24.691270610091554]
本稿では,ビデオから意味的に強調された表現を純粋に学習し,ビデオ表現をオフラインで計算し,異なるテキストに対して再利用することを目的とする。
MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセット上で, 最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-15T08:54:25Z) - Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - RaP: Redundancy-aware Video-language Pre-training for Text-Video
Retrieval [61.77760317554826]
冗長性を考慮したビデオ言語事前学習を提案する。
我々は,ビデオパッチとテキストトークンの冗長性の測定を,クロスモーダルな最小相似性を計算することによって設計する。
提案手法はMSRVTT, MSVD, DiDeMo, LSMDCの4つのベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-10-13T10:11:41Z) - MILES: Visual BERT Pre-training with Injected Language Semantics for
Video-text Retrieval [43.2299969152561]
ゼロショット・ファインチューン評価プロトコルを用いた4つのデータセットのテキスト・ビデオ検索手法
提案手法は,ゼロショットおよびファインチューン評価プロトコルを用いた4つのデータセット上でのテキスト・ビデオ検索における最先端手法よりも優れる。
論文 参考訳(メタデータ) (2022-04-26T16:06:31Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。