論文の概要: Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial
Margin Contrastive Learning
- arxiv url: http://arxiv.org/abs/2309.11082v3
- Date: Fri, 26 Jan 2024 06:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 18:01:00.416342
- Title: Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial
Margin Contrastive Learning
- Title(参考訳): 3重部分マージンコントラスト学習を用いた2重モーダル注意強調テキストビデオ検索
- Authors: Chen Jiang, Hong Liu, Xuzheng Yu, Qing Wang, Yuan Cheng, Jia Xu,
Zhongyi Liu, Qingpei Guo, Wei Chu, Ming Yang, Yuan Qi
- Abstract要約: テキストビデオ検索は、関係のないものよりも関連のあるテキストや動画をランク付けすることを目的としている。
最近のコントラスト学習手法は,テキストビデオ検索に有望な結果を示している。
本稿では2つの新しい手法を用いてコントラスト学習を改善する。
- 参考スコア(独自算出の注目度): 35.404100473539195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the explosion of web videos makes text-video retrieval
increasingly essential and popular for video filtering, recommendation, and
search. Text-video retrieval aims to rank relevant text/video higher than
irrelevant ones. The core of this task is to precisely measure the cross-modal
similarity between texts and videos. Recently, contrastive learning methods
have shown promising results for text-video retrieval, most of which focus on
the construction of positive and negative pairs to learn text and video
representations. Nevertheless, they do not pay enough attention to hard
negative pairs and lack the ability to model different levels of semantic
similarity. To address these two issues, this paper improves contrastive
learning using two novel techniques. First, to exploit hard examples for robust
discriminative power, we propose a novel Dual-Modal Attention-Enhanced Module
(DMAE) to mine hard negative pairs from textual and visual clues. By further
introducing a Negative-aware InfoNCE (NegNCE) loss, we are able to adaptively
identify all these hard negatives and explicitly highlight their impacts in the
training loss. Second, our work argues that triplet samples can better model
fine-grained semantic similarity compared to pairwise samples. We thereby
present a new Triplet Partial Margin Contrastive Learning (TPM-CL) module to
construct partial order triplet samples by automatically generating
fine-grained hard negatives for matched text-video pairs. The proposed TPM-CL
designs an adaptive token masking strategy with cross-modal interaction to
model subtle semantic differences. Extensive experiments demonstrate that the
proposed approach outperforms existing methods on four widely-used text-video
retrieval datasets, including MSR-VTT, MSVD, DiDeMo and ActivityNet.
- Abstract(参考訳): 近年、ウェブビデオの爆発により、ビデオフィルタリング、レコメンデーション、検索にテキストビデオ検索が不可欠になり、人気が高まっている。
テキストビデオ検索は、関係のないものよりも関連のあるテキストやビデオをランク付けすることを目的としている。
このタスクの中核は、テキストとビデオの相互類似性を正確に測定することである。
近年,コントラスト学習はテキスト・ビデオ検索に有望な結果をもたらしており,そのほとんどがテキスト・ビデオ表現を学習するためのポジティブペアとネガティブペアの構築に焦点が当てられている。
それでも彼らは強負対に十分な注意を払わず、異なるレベルの意味的類似性をモデル化する能力に欠ける。
この2つの問題に対処するため,本論文では2つの新しい手法を用いてコントラスト学習を改善する。
まず、頑健な識別力のためのハードサンプルを利用するために、テキストと視覚の手がかりからハードネガティブペアをマイニングするための新しいデュアルモーダルアテンション拡張モジュール(DMAE)を提案する。
さらにNegative-Aware InfoNCE(NegNCE)の損失を導入することで、これらのハードネガティブをすべて適応的に識別し、トレーニング損失に対する彼らの影響を明確にすることが可能になる。
第二に、三重項サンプルは、ペアのサンプルに比べてきめ細かいセマンティックな類似性をモデル化できると主張している。
これにより、マッチングされたテキスト-ビデオ対に対して、微細な硬さの負を自動的に生成することにより、部分順序三重項サンプルを構築するための新しい三重項部分整合性学習(TPM-CL)モジュールを提案する。
提案するtpm-clは,微妙な意味差をモデル化するために,クロスモーダルインタラクションを用いた適応トークンマスキング戦略を設計する。
大規模な実験により,提案手法は,MSR-VTT,MSVD,DiDeMo,ActivityNetなど,広く使用されている4つのテキストビデオ検索データセットにおいて,既存の手法よりも優れていることが示された。
関連論文リスト
- In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - Improving Video Retrieval by Adaptive Margin [18.326296132847332]
ビデオ検索の主流パラダイムは、正の対と負の対の類似性の間の距離を固定辺から切り離すことで、ビデオテキスト表現を学習する。
トレーニングに使用される負のペアはランダムにサンプリングされ、負のペア間のセマンティクスが関連あるいは等価であることを示している。
本稿では、上記の問題を解決するために、正対と負対の距離で変化した適応マージンを提案する。
論文 参考訳(メタデータ) (2023-03-09T08:07:38Z) - Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。
我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。
我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文 参考訳(メタデータ) (2022-10-22T00:22:55Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。
そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文 参考訳(メタデータ) (2021-08-23T07:24:57Z) - Video-aided Unsupervised Grammar Induction [108.53765268059425]
ラベルのないテキストと対応するビデオの両方から構成を学習するビデオ支援文法インダクションについて検討する。
ビデオは、静的オブジェクトだけでなく、動詞句を誘導するのに有用なアクションや状態の変更を含む、さらに豊富な情報を提供します。
マルチモードコンパウンドPCFGモデル(MMC-PCFG)を提案し,これらの豊富な特徴を異なるモダリティから効果的に集約する。
論文 参考訳(メタデータ) (2021-04-09T14:01:36Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。