論文の概要: MILES: Visual BERT Pre-training with Injected Language Semantics for
Video-text Retrieval
- arxiv url: http://arxiv.org/abs/2204.12408v1
- Date: Tue, 26 Apr 2022 16:06:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 13:56:05.563858
- Title: MILES: Visual BERT Pre-training with Injected Language Semantics for
Video-text Retrieval
- Title(参考訳): MILES: ビデオテキスト検索のためのインジェクト言語セマンティクスによるビジュアルBERT事前トレーニング
- Authors: Yuying Ge, Yixiao Ge, Xihui Liu, Alex Jinpeng Wang, Jianping Wu, Ying
Shan, Xiaohu Qie and Ping Luo
- Abstract要約: ゼロショット・ファインチューン評価プロトコルを用いた4つのデータセットのテキスト・ビデオ検索手法
提案手法は,ゼロショットおよびファインチューン評価プロトコルを用いた4つのデータセット上でのテキスト・ビデオ検索における最先端手法よりも優れる。
- 参考スコア(独自算出の注目度): 43.2299969152561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dominant pre-training work for video-text retrieval mainly adopt the
"dual-encoder" architectures to enable efficient retrieval, where two separate
encoders are used to contrast global video and text representations, but ignore
detailed local semantics. The recent success of image BERT pre-training with
masked visual modeling that promotes the learning of local visual context,
motivates a possible solution to address the above limitation. In this work, we
for the first time investigate masked visual modeling in video-text
pre-training with the "dual-encoder" architecture. We perform Masked visual
modeling with Injected LanguagE Semantics (MILES) by employing an extra
snapshot video encoder as an evolving "tokenizer" to produce reconstruction
targets for masked video patch prediction. Given the corrupted video, the video
encoder is trained to recover text-aligned features of the masked patches via
reasoning with the visible regions along the spatial and temporal dimensions,
which enhances the discriminativeness of local visual features and the
fine-grained cross-modality alignment. Our method outperforms state-of-the-art
methods for text-to-video retrieval on four datasets with both zero-shot and
fine-tune evaluation protocols. Our approach also surpasses the baseline models
significantly on zero-shot action recognition, which can be cast as
video-to-text retrieval.
- Abstract(参考訳): ビデオテキスト検索における優位な事前学習作業は、主に「デュアルエンコーダ」アーキテクチャを採用して効率的な検索を可能にし、グローバルなビデオやテキスト表現を対比するために2つの独立したエンコーダを使用するが、詳細なローカルセマンティクスは無視する。
局所的な視覚的コンテキストの学習を促進するマスク付き視覚モデルを用いた画像BERT事前学習の成功は、上記の制限に対処するための解決策の動機付けとなる。
本研究では,「二重エンコーダ」アーキテクチャを用いた映像テキスト事前学習におけるマスキングビジュアルモデリングを初めて検討した。
我々は,追加のスナップショットビデオエンコーダを"トケナイザ"として使用し,マスク映像パッチ予測のための再構成目標を生成することにより,インジェクション言語セマンティクス(miles)を用いたマスキングビジュアルモデリングを行う。
ビデオエンコーダは、腐敗した映像を想定して、空間的および時間的次元に沿って可視領域を推論することにより、マスキングパッチのテキストアライメント特徴を復元するように訓練され、局所的な視覚特徴の判別性と細粒度のクロスモダリティアライメントが向上する。
提案手法は,ゼロショットおよびファインチューン評価プロトコルを用いた4つのデータセット上でのテキスト・ビデオ検索における最先端手法よりも優れる。
提案手法は,ビデオからテキストへの検索が可能なゼロショット動作認識において,ベースラインモデルを大幅に上回る。
関連論文リスト
- Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval [24.691270610091554]
本稿では,ビデオから意味的に強調された表現を純粋に学習し,ビデオ表現をオフラインで計算し,異なるテキストに対して再利用することを目的とする。
MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセット上で, 最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-15T08:54:25Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - CLIP2Video: Mastering Video-Text Retrieval via Image CLIP [13.270902407320005]
本稿では、CLIP2Videoネットワークを用いて、画像言語学習モデルをエンドツーエンドでビデオテキスト検索に転送する。
我々は,テキスト・ツー・ビデオ・トゥ・テキスト・検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-21T13:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。