論文の概要: CLIP2TV: An Empirical Study on Transformer-based Methods for Video-Text
Retrieval
- arxiv url: http://arxiv.org/abs/2111.05610v1
- Date: Wed, 10 Nov 2021 10:05:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 19:19:04.671631
- Title: CLIP2TV: An Empirical Study on Transformer-based Methods for Video-Text
Retrieval
- Title(参考訳): CLIP2TV:ビデオテキスト検索のためのトランスフォーマー方式に関する実証的研究
- Authors: Zijian Gao, Jingyu Liu, Sheng Chen, Dedan Chang, Hao Zhang, Jinwei
Yuan
- Abstract要約: 本稿では,CLIP2TVについて紹介する。
特に、CLIP2TVは、MSR-VTTデータセット上で52.9@R1を達成し、以前のSOTA結果よりも4.1%向上した。
- 参考スコア(独自算出の注目度): 14.022356429411934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern video-text retrieval frameworks basically consist of three parts:
video encoder, text encoder and the similarity head. With the success on both
visual and textual representation learning, transformer based encoders and
fusion methods have also been adopted in the field of video-text retrieval. In
this report, we present CLIP2TV, aiming at exploring where the critical
elements lie in transformer based methods. To achieve this, We first revisit
some recent works on multi-modal learning, then introduce some techniques into
video-text retrieval, finally evaluate them through extensive experiments in
different configurations. Notably, CLIP2TV achieves 52.9@R1 on MSR-VTT dataset,
outperforming the previous SOTA result by 4.1%.
- Abstract(参考訳): 現代のビデオテキスト検索フレームワークは、ビデオエンコーダ、テキストエンコーダ、類似性ヘッドの3つの部分から構成されている。
視覚的およびテキスト的表現学習の成功により、ビデオテキスト検索の分野でもトランスフォーマーベースのエンコーダと融合法が採用されている。
本稿では,トランスフォーマー方式において重要な要素がどこにあるのかを検討するために,clip2tvを提案する。
これを実現するために,我々はまず,マルチモーダル学習に関する最近の研究を再検討し,その後,ビデオテキスト検索にいくつかの技術を導入する。
特に、CLIP2TVは、MSR-VTTデータセット上で52.9@R1を達成し、以前のSOTAよりも4.1%向上した。
関連論文リスト
- Fine-grained Text-Video Retrieval with Frozen Image Encoders [10.757101644990273]
2段階のテキストビデオ検索アーキテクチャであるCrossTVRを提案する。
第1段階では,既存のTVR手法とコサイン類似性ネットワークを利用して,効率的なテキスト/ビデオ候補選択を行う。
第2段階では,空間次元と時間次元の細粒度マルチモーダル情報をキャプチャするビデオテキストクロスアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-07-14T02:57:00Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - Are All Combinations Equal? Combining Textual and Visual Features with
Multiple Space Learning for Text-Based Video Retrieval [9.537322316673617]
多様なテキスト・視覚的特徴を特徴対に最適に組み合わせる方法について検討する。
これらの表現を学習するために、提案するネットワークアーキテクチャは、複数の空間学習手順に従って訓練される。
論文 参考訳(メタデータ) (2022-11-21T11:08:13Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - End-to-End Video Text Spotting with Transformer [86.46724646835627]
我々は、シンプルだが効果的なビデオテキスト検出・追跡・認識フレームワーク(TransDETR)を提案する。
TransDETRは、最初のエンドツーエンドのトレーニング可能なビデオテキストスポッティングフレームワークであり、3つのサブタスク(テキスト検出、追跡、認識など)を同時に扱う。
論文 参考訳(メタデータ) (2022-03-20T12:14:58Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One
More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。
利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文 参考訳(メタデータ) (2022-03-14T13:15:09Z) - A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text
Spotter with Transformer [12.167938646139705]
大規模でバイリンガルなオープンワールドビデオテキストベンチマークデータセット(BOVText)を導入する。
まず、1,750,000フレーム以上の2,000以上のビデオを提供しています。
第2に、私たちのデータセットは30以上のオープンカテゴリをカバーしており、Life Vlog、Driving、Movieなど、さまざまなシナリオが選択できます。
論文 参考訳(メタデータ) (2021-12-09T13:21:26Z) - TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。
そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文 参考訳(メタデータ) (2021-08-23T07:24:57Z) - HiT: Hierarchical Transformer with Momentum Contrast for Video-Text
Retrieval [40.646628490887075]
ビデオテキスト検索のためのHiT(Hierarchical Transformer)という新しい手法を提案する。
HiTは特徴レベルと意味レベルで階層的相互モーダルコントラストマッチングを行い、多視点および包括的検索結果を得る。
MoCoにインスパイアされたクロスモーダル学習のためのMomentum Cross-modal Contrastを提案する。
論文 参考訳(メタデータ) (2021-03-28T04:52:25Z) - Multi-modal Transformer for Video Retrieval [67.86763073161012]
ビデオの様々なモードを共同で符号化するマルチモーダルトランスを提案する。
自然言語に関しては,マルチモーダル変換器と組み合わさった言語を最適化するベストプラクティスについて検討する。
この新たなフレームワークにより,3つのデータセット上での映像検索の最先端化が可能となる。
論文 参考訳(メタデータ) (2020-07-21T07:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。