論文の概要: Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval
- arxiv url: http://arxiv.org/abs/2104.00650v1
- Date: Thu, 1 Apr 2021 17:48:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 17:55:20.194872
- Title: Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval
- Title(参考訳): frozen in time: エンド・ツー・エンド検索のためのジョイントビデオと画像エンコーダ
- Authors: Max Bain, Arsha Nagrani, G\"ul Varol, Andrew Zisserman
- Abstract要約: 大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
- 参考スコア(独自算出の注目度): 80.7397409377659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our objective in this work is video-text retrieval - in particular a joint
embedding that enables efficient text-to-video retrieval. The challenges in
this area include the design of the visual architecture and the nature of the
training data, in that the available large scale video-text training datasets,
such as HowTo100M, are noisy and hence competitive performance is achieved only
at scale through large amounts of compute. We address both these challenges in
this paper. We propose an end-to-end trainable model that is designed to take
advantage of both large-scale image and video captioning datasets. Our model is
an adaptation and extension of the recent ViT and Timesformer architectures,
and consists of attention in both space and time. The model is flexible and can
be trained on both image and video text datasets, either independently or in
conjunction. It is trained with a curriculum learning schedule that begins by
treating images as 'frozen' snapshots of video, and then gradually learns to
attend to increasing temporal context when trained on video datasets. We also
provide a new video-text pretraining dataset WebVid-2M, comprised of over two
million videos with weak captions scraped from the internet. Despite training
on datasets that are an order of magnitude smaller, we show that this approach
yields state-of-the-art results on standard downstream video-retrieval
benchmarks including MSR-VTT, MSVD, DiDeMo and LSMDC.
- Abstract(参考訳): 本研究の目的はビデオテキスト検索であり,特にテキストからビデオへの効率的な検索を可能にする組込みである。
この領域における課題は、視覚アーキテクチャの設計とトレーニングデータの性質であり、howto100mのような利用可能な大規模ビデオテキストトレーニングデータセットはうるさいため、大規模な計算によってのみ競合性能が達成される。
本稿ではこれらの課題に対処する。
本研究では,大規模画像と映像キャプションデータセットを併用したエンドツーエンドの学習モデルを提案する。
我々のモデルは、最近のViTおよびTimeformerアーキテクチャの適応と拡張であり、空間と時間の両方に注意を払っている。
モデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立して、あるいは共同でトレーニングすることができる。
ビデオの「凍った」スナップショットとして画像を扱うことから始まるカリキュラム学習スケジュールでトレーニングされ、ビデオデータセットでトレーニングされた場合、徐々に時間的コンテキストの増大に対応するように学習される。
また、新たにWebVid-2Mというビデオテキスト事前学習データセットも提供しています。
MSR-VTT, MSVD, DiDeMo, LSMDCなどの標準ダウンストリームビデオ検索ベンチマークにおいて, 精度の低いデータセットのトレーニングを行った結果, 最新の結果が得られた。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。
我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。
我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-12T09:08:27Z) - iBoot: Image-bootstrapped Self-Supervised Video Representation Learning [45.845595749486215]
ビデオデータセットは通常、画像データセットほど大きくない。
本稿では,映像表現学習フレームワークにおいて,自己や言語を事前訓練した強力な画像ベースモデルを提案する。
提案アルゴリズムはより少ないエポックと少ないバッチでより効率的に学習できることが示されている。
論文 参考訳(メタデータ) (2022-06-16T17:42:48Z) - Learning Audio-Video Modalities from Image Captions [62.772232865072745]
テキストビデオとテキストオーディオ検索における大きな課題は、大規模なトレーニングデータがないことである。
画像キャプションデータセットからビデオクリップへのキャプションを手作業なしで転送する新しいビデオマイニングパイプラインを提案する。
このデータに基づくマルチモーダル変換モデルによるトレーニングは、ビデオ検索やビデオキャプションの競合性能、マッチング、さらには20倍のクリップでHowTo100Mの事前トレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-01T19:48:18Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z) - CLIP2Video: Mastering Video-Text Retrieval via Image CLIP [13.270902407320005]
本稿では、CLIP2Videoネットワークを用いて、画像言語学習モデルをエンドツーエンドでビデオテキスト検索に転送する。
我々は,テキスト・ツー・ビデオ・トゥ・テキスト・検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-21T13:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。