論文の概要: X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text
Retrieval
- arxiv url: http://arxiv.org/abs/2207.07285v1
- Date: Fri, 15 Jul 2022 04:23:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-18 14:17:19.946826
- Title: X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text
Retrieval
- Title(参考訳): X-CLIP:ビデオテキスト検索のための多粒度コントラスト学習
- Authors: Yiwei Ma, Guohai Xu, Xiaoshuai Sun, Ming Yan, Ji Zhang, Rongrong Ji
- Abstract要約: 細かなコントラストは粗い粒度の表現と細かな粒度の表現のコントラストである。
X-CLIPはビデオテキスト検索のための新しいマルチグラウンドコントラストモデルである。
X-CLIPは、広く使われている5つのビデオテキスト検索データセットにおいて優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 87.3821932795969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-text retrieval has been a crucial and fundamental task in multi-modal
research. The development of video-text retrieval has been considerably
promoted by large-scale multi-modal contrastive pre-training, which primarily
focuses on coarse-grained or fine-grained contrast. However, cross-grained
contrast, which is the contrast between coarse-grained representations and
fine-grained representations, has rarely been explored in prior research.
Compared with fine-grained or coarse-grained contrasts, cross-grained contrast
calculate the correlation between coarse-grained features and each fine-grained
feature, and is able to filter out the unnecessary fine-grained features guided
by the coarse-grained feature during similarity calculation, thus improving the
accuracy of retrieval. To this end, this paper presents a novel multi-grained
contrastive model, namely X-CLIP, for video-text retrieval. However, another
challenge lies in the similarity aggregation problem, which aims to aggregate
fine-grained and cross-grained similarity matrices to instance-level
similarity. To address this challenge, we propose the Attention Over Similarity
Matrix (AOSM) module to make the model focus on the contrast between essential
frames and words, thus lowering the impact of unnecessary frames and words on
retrieval results. With multi-grained contrast and the proposed AOSM module,
X-CLIP achieves outstanding performance on five widely-used video-text
retrieval datasets, including MSR-VTT (49.3 R@1), MSVD (50.4 R@1), LSMDC (26.1
R@1), DiDeMo (47.8 R@1) and ActivityNet (46.2 R@1). It outperforms the previous
state-of-theart by +6.3%, +6.6%, +11.1%, +6.7%, +3.8% relative improvements on
these benchmarks, demonstrating the superiority of multi-grained contrast and
AOSM.
- Abstract(参考訳): ビデオテキスト検索はマルチモーダル研究において不可欠かつ基本的な課題である。
ビデオテキスト検索の発展は,粗粒度や細粒度のコントラストに着目した大規模マルチモーダルコントラスト事前学習によって大きく促進されている。
しかし、粗粒度表現と細粒度表現の対比であるクロスグレードコントラストは、先行研究においてほとんど研究されていない。
粗粒度コントラストと粗粒度コントラストを比較し、粗粒度特徴と細粒度特徴との相関を算出し、類似度計算中に粗粒度特徴によって導かれる不要な細粒度特徴を除去し、検索精度を向上させる。
そこで本研究では,ビデオテキスト検索のためのマルチグラウンドコントラストモデルであるX-CLIPを提案する。
しかし、もうひとつの課題は、インスタンスレベルの類似度に細粒度およびクロス粒度類似度行列を集約することを目的とした、類似度集約問題である。
そこで本研究では,本質的フレームと単語のコントラストに着目し,不必要なフレームと単語の検索結果への影響を低減させるため,類似度行列(aosm)モジュールに着目した注意点を提案する。
MSR-VTT (49.3 R@1)、MSVD (50.4 R@1)、LSMDC (26.1 R@1)、DiDeMo (47.8 R@1)、ActivityNet (46.2 R@1) を含む5つの広く使われているビデオテキスト検索データセットにおいて、マルチグラファストコントラストと提案されたAOSMモジュールにより、X-CLIPは優れた性能を発揮する。
それまでの技術水準を+6.3%、+6.6%、+11.1%、+6.7%、+3.8%で上回り、マルチグレードコントラストとAOSMの優位性を示している。
関連論文リスト
- Beat: Bi-directional One-to-Many Embedding Alignment for Text-based Person Retrieval [66.61856014573742]
テキストベースの人物検索(TPR)は、テキスト記述に基づいて特定の個人を検索する難題である。
これまでは、テキストと画像のサンプルをモーダルシェード空間で整列させようと試みてきた。
本稿では,各サンプルに対して明確な最適化方向を提供する,効果的な双方向一対多埋め込みパラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-09T03:06:55Z) - CPCL: Cross-Modal Prototypical Contrastive Learning for Weakly
Supervised Text-based Person Re-Identification [10.64115914599574]
弱教師付きテキストベース人物識別(TPRe-ID)は、テキスト記述を用いて対象人物の画像の検索を試みる。
主な課題はクラス内の違いであり、モーダル内特徴のバリエーションとモーダル間のセマンティックギャップを含んでいる。
実際には、CPCLはCLIPモデルを初めて弱教師付きTPRe-IDに導入し、ビジュアルインスタンスとテキストインスタンスを共有潜在空間にマッピングする。
論文 参考訳(メタデータ) (2024-01-18T14:27:01Z) - Unified Coarse-to-Fine Alignment for Video-Text Retrieval [71.85966033484597]
UCoFiAと呼ばれる統一粗粒配向モデルを提案する。
我々のモデルは、異なる粒度レベルで、モーダル間の類似情報をキャプチャする。
そこで,Sinkhorn-Knoppアルゴリズムを用いて各レベルの類似性を正規化し,それらを要約する。
論文 参考訳(メタデータ) (2023-09-18T19:04:37Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - A Similarity Inference Metric for RGB-Infrared Cross-Modality Person
Re-identification [66.49212581685127]
IRとRGBの相違が大きいため、モダリティの人物再識別(re-ID)は難しい課題である。
既存のメソッドはこの課題に対処するため、典型的には、特徴分布やイメージスタイルをモダリティ間で整列させることで対処する。
本稿では,モダリティ内サンプルの類似性を利用して,モダリティ間の相違を回避する新しい類似度推定指標(SIM)を提案する。
論文 参考訳(メタデータ) (2020-07-03T05:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。