論文の概要: Memory Enhanced Embedding Learning for Cross-Modal Video-Text Retrieval
- arxiv url: http://arxiv.org/abs/2103.15686v1
- Date: Mon, 29 Mar 2021 15:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 19:49:51.401587
- Title: Memory Enhanced Embedding Learning for Cross-Modal Video-Text Retrieval
- Title(参考訳): クロスモーダルビデオテキスト検索のためのメモリ強化埋め込み学習
- Authors: Rui Zhao, Kecheng Zheng, Zheng-Jun Zha, Hongtao Xie and Jiebo Luo
- Abstract要約: クロスモーダルなビデオテキスト検索は、視覚と言語分野において難しい課題である。
このタスクの既存のアプローチはすべて、ハードネガティブなランキング損失を通じてエンコーディングモデルを設計する方法に重点を置いている。
ビデオテキスト検索のための新しいメモリ強化埋め込み学習(MEEL)法を提案する。
- 参考スコア(独自算出の注目度): 155.32369959647437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-modal video-text retrieval, a challenging task in the field of vision
and language, aims at retrieving corresponding instance giving sample from
either modality. Existing approaches for this task all focus on how to design
encoding model through a hard negative ranking loss, leaving two key problems
unaddressed during this procedure. First, in the training stage, only a
mini-batch of instance pairs is available in each iteration. Therefore, this
kind of hard negatives is locally mined inside a mini-batch while ignoring the
global negative samples among the dataset. Second, there are many text
descriptions for one video and each text only describes certain local features
of a video. Previous works for this task did not consider to fuse the multiply
texts corresponding to a video during the training. In this paper, to solve the
above two problems, we propose a novel memory enhanced embedding learning
(MEEL) method for videotext retrieval. To be specific, we construct two kinds
of memory banks respectively: cross-modal memory module and text center memory
module. The cross-modal memory module is employed to record the instance
embeddings of all the datasets for global negative mining. To avoid the fast
evolving of the embedding in the memory bank during training, we utilize a
momentum encoder to update the features by a moving-averaging strategy. The
text center memory module is designed to record the center information of the
multiple textual instances corresponding to a video, and aims at bridging these
textual instances together. Extensive experimental results on two challenging
benchmarks, i.e., MSR-VTT and VATEX, demonstrate the effectiveness of the
proposed method.
- Abstract(参考訳): 視覚・言語分野における課題であるクロスモーダルビデオテキスト検索は、どちらのモダリティからも対応するインスタンスのサンプルを取得することを目的としている。
このタスクに対する既存のアプローチはすべて、ハードネガティブなランキングの損失を通じてエンコーディングモデルを設計する方法に重点を置いている。
まず、トレーニング段階では、各イテレーションで利用できるのはインスタンスペアのミニバッチのみである。
したがって、この種のハードネガティブはミニバッチ内でローカルに採掘され、データセット内のグローバルネガティブなサンプルは無視される。
第二に、ビデオには多くのテキスト記述があり、各テキストはビデオの特定のローカルな特徴のみを記述する。
このタスクの以前の作業は、トレーニング中にビデオに対応する乗算テキストを融合することを考慮していなかった。
本稿では,この2つの問題を解決するために,ビデオテキスト検索のための新しいメモリ強化埋め込み学習(meel)手法を提案する。
具体的には,クロスモーダルメモリモジュールとテキストセンターメモリモジュールの2種類のメモリバンクを構築する。
クロスモーダルメモリモジュールは、グローバルな負のマイニングのためにすべてのデータセットのインスタンス埋め込みを記録するために使用される。
学習中のメモリバンクへの埋め込みが急速に進展することを避けるため,運動量エンコーダを用いて移動平均戦略により特徴を更新できる。
テキストセンターメモリモジュールは、ビデオに対応する複数のテキストインスタンスの中心情報を記録するように設計され、これらのテキストインスタンスを一緒にブリッジすることを目的としている。
msr-vttとvatexの2つの難解なベンチマーク実験の結果から,提案手法の有効性が示された。
関連論文リスト
- Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval [9.899703354116962]
Dense Videoのキャプションは、すべてのイベントを自動的にローカライズし、非トリミングビデオ内でキャプションすることを目的としている。
本稿では,人間の認知情報処理に触発された新しい枠組みを提案する。
我々のモデルは、事前知識を組み込むために外部記憶を利用する。
論文 参考訳(メタデータ) (2024-04-11T09:58:23Z) - Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial
Margin Contrastive Learning [35.404100473539195]
テキストビデオ検索は、関係のないものよりも関連のあるテキストや動画をランク付けすることを目的としている。
最近のコントラスト学習手法は,テキストビデオ検索に有望な結果を示している。
本稿では2つの新しい手法を用いてコントラスト学習を改善する。
論文 参考訳(メタデータ) (2023-09-20T06:08:11Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - RaP: Redundancy-aware Video-language Pre-training for Text-Video
Retrieval [61.77760317554826]
冗長性を考慮したビデオ言語事前学習を提案する。
我々は,ビデオパッチとテキストトークンの冗長性の測定を,クロスモーダルな最小相似性を計算することによって設計する。
提案手法はMSRVTT, MSVD, DiDeMo, LSMDCの4つのベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-10-13T10:11:41Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Reading-strategy Inspired Visual Representation Learning for
Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。
人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。
我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文 参考訳(メタデータ) (2022-01-23T03:38:37Z) - BridgeFormer: Bridging Video-text Retrieval with Multiple Choice
Questions [38.843518809230524]
我々は、Multiple Choice Questions (MCQ) と呼ばれる新しいプレテキストタスクを導入する。
BridgeFormerモジュールは、ビデオ機能に頼ってテキスト機能によって構築された"クエスト"に答えるように訓練されている。
質問や回答の形式では、ローカルなビデオテキストの特徴間の意味的関連を適切に確立することができる。
提案手法は,5つのデータセットにおいて,人気テキスト・ビデオ検索タスクにおける最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2022-01-13T09:33:54Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。