論文の概要: Masked Contrastive Pre-Training for Efficient Video-Text Retrieval
- arxiv url: http://arxiv.org/abs/2212.00986v1
- Date: Fri, 2 Dec 2022 05:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 15:39:00.002551
- Title: Masked Contrastive Pre-Training for Efficient Video-Text Retrieval
- Title(参考訳): 効率的なビデオテキスト検索のためのマスキングコントラスト事前学習
- Authors: Fangxun Shu, Biaolong Chen, Yue Liao, Ke Gao, Shuwen Xiao, Wenyu Sun,
Xiaobo Li, Yousong Zhu, Jinqiao Wang and Si Liu
- Abstract要約: 我々は、シンプルだが効果的なビデオ言語事前学習(VidLP)フレームワーク、Masked Contrastive Video-Language Pretraining(MAC)を提案する。
我々のMACは、VidLPモデルにおける映像表現の空間的および時間的冗長性を低減することを目的としている。
これらの設計を結合することで、FLOP(60%オフ)の削減、事前トレーニング(3倍)の高速化、性能向上など、効率的なエンドツーエンドの事前トレーニングが可能になる。
- 参考スコア(独自算出の注目度): 38.154572674025395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a simple yet effective end-to-end Video-language Pre-training
(VidLP) framework, Masked Contrastive Video-language Pretraining (MAC), for
video-text retrieval tasks. Our MAC aims to reduce video representation's
spatial and temporal redundancy in the VidLP model by a mask sampling mechanism
to improve pre-training efficiency. Comparing conventional temporal sparse
sampling, we propose to randomly mask a high ratio of spatial regions and only
feed visible regions into the encoder as sparse spatial sampling. Similarly, we
adopt the mask sampling technique for text inputs for consistency. Instead of
blindly applying the mask-then-prediction paradigm from MAE, we propose a
masked-then-alignment paradigm for efficient video-text alignment. The
motivation is that video-text retrieval tasks rely on high-level alignment
rather than low-level reconstruction, and multimodal alignment with masked
modeling encourages the model to learn a robust and general multimodal
representation from incomplete and unstable inputs. Coupling these designs
enables efficient end-to-end pre-training: reduce FLOPs (60% off), accelerate
pre-training (by 3x), and improve performance. Our MAC achieves
state-of-the-art results on various video-text retrieval datasets, including
MSR-VTT, DiDeMo, and ActivityNet. Our approach is omnivorous to input
modalities. With minimal modifications, we achieve competitive results on
image-text retrieval tasks.
- Abstract(参考訳): ビデオテキスト検索タスクに対して,ビデオ言語事前学習(VidLP)フレームワークであるMasked Contrastive Video-Language Pretraining(MAC)を提案する。
我々のMACは,VidLPモデルにおける映像表現の空間的・時間的冗長性をマスクサンプリング機構により低減し,事前学習効率を向上させることを目的としている。
従来の時空間サンプリングと比較して,空間領域の高比をランダムにマスキングし,空間サンプリングとしてエンコーダに可視領域を供給することを提案する。
同様に,テキスト入力のためのマスクサンプリング技術も採用している。
mae のマスキング予測パラダイムを盲目的に適用する代わりに,効率的なビデオテキストアライメントのためのマスキング予測パラダイムを提案する。
モチベーションは、ビデオテキスト検索タスクが低レベルリコンストラクションよりも高レベルアライメントに依存しており、マスキングモデリングとのマルチモーダルアライメントは、不完全で不安定な入力から堅牢で一般的なマルチモーダル表現を学ぶことを奨励している。
これらの設計を結合することで、FLOP(60%オフ)の削減、事前トレーニング(3倍)の高速化、性能向上など、効率的なエンドツーエンドの事前トレーニングが可能になる。
我々のMACは、MSR-VTT、DiDeMo、ActivityNetなど、様々なビデオテキスト検索データセットの最先端結果を達成する。
私たちのアプローチは入力モダリティに全能的です。
最小限の変更で、画像テキスト検索タスクの競合的な結果が得られる。
関連論文リスト
- Resource-Efficient Multiview Perception: Integrating Semantic Masking with Masked Autoencoders [6.498925999634298]
本稿では、マスク付きオートエンコーダ(MAE)を用いた通信効率の高い分散マルチビュー検出と追跡のための新しい手法を提案する。
本稿では,事前訓練されたセグメンテーションモデルと調整可能なパワー関数を利用して,情報領域の優先順位付けを行う意味誘導型マスキング手法を提案する。
我々は,仮想および実世界のマルチビューデータセットを用いて本手法の評価を行い,性能指標の検出と追跡において同等の性能を示す。
論文 参考訳(メタデータ) (2024-10-07T08:06:41Z) - Text-Guided Video Masked Autoencoder [12.321239366215426]
本稿では,ペア字幕に高い対応で映像領域をマスキングする新しいテキスト誘導マスキングアルゴリズム(TGM)を提案する。
既存のマスキングアルゴリズム、統一MAE、マスキングビデオテキストコントラスト学習により、純粋なMAEと比較して下流性能が向上することを示す。
論文 参考訳(メタデータ) (2024-08-01T17:58:19Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers [30.924202893340087]
最先端のアプローチは主にこれらのタスクを達成するために拡散モデルに依存している。
本稿では,テキストベースのビデオ編集タスクを2段階に分割する。
まず、事前訓練されたテキスト・画像拡散モデルを用いて、ゼロショット方式で少数者を同時に編集する。
第2に,非自己回帰マスク生成変換器をベースとしたMaskINTという効率的なモデルを提案する。
論文 参考訳(メタデータ) (2023-12-19T07:05:39Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - RaP: Redundancy-aware Video-language Pre-training for Text-Video
Retrieval [61.77760317554826]
冗長性を考慮したビデオ言語事前学習を提案する。
我々は,ビデオパッチとテキストトークンの冗長性の測定を,クロスモーダルな最小相似性を計算することによって設計する。
提案手法はMSRVTT, MSVD, DiDeMo, LSMDCの4つのベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-10-13T10:11:41Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。