論文の概要: TC-MGC: Text-Conditioned Multi-Grained Contrastive Learning for Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2504.04707v1
- Date: Mon, 07 Apr 2025 03:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:08:36.026502
- Title: TC-MGC: Text-Conditioned Multi-Grained Contrastive Learning for Text-Video Retrieval
- Title(参考訳): TC-MGC:テキストビデオ検索のためのテキスト記述型マルチグラインドコントラスト学習
- Authors: Xiaolun Jing, Genke Yang, Jian Chu,
- Abstract要約: 本稿では,TC-MGC と呼ばれるテキスト記述型マルチグラインドコントラストフレームワークを提案する。
本モデルでは,単語の重み付けとテキストの重み付けに係わる集約されたフレームとビデオ表現を生成するために,言語ビデオのアテンションブロックを用いる。
実証的に、TC-MGCは複数のテキストビデオ検索ベンチマークで競合する結果を得る。
- 参考スコア(独自算出の注目度): 1.8434042562191815
- License:
- Abstract: Motivated by the success of coarse-grained or fine-grained contrast in text-video retrieval, there emerge multi-grained contrastive learning methods which focus on the integration of contrasts with different granularity. However, due to the wider semantic range of videos, the text-agnostic video representations might encode misleading information not described in texts, thus impeding the model from capturing precise cross-modal semantic correspondence. To this end, we propose a Text-Conditioned Multi-Grained Contrast framework, dubbed TC-MGC. Specifically, our model employs a language-video attention block to generate aggregated frame and video representations conditioned on the word's and text's attention weights over frames. To filter unnecessary similarity interactions and decrease trainable parameters in the Interactive Similarity Aggregation (ISA) module, we design a Similarity Reorganization (SR) module to identify attentive similarities and reorganize cross-modal similarity vectors and matrices. Next, we argue that the imbalance problem among multigrained similarities may result in over- and under-representation issues. We thereby introduce an auxiliary Similarity Decorrelation Regularization (SDR) loss to facilitate cooperative relationship utilization by similarity variance minimization on matching text-video pairs. Finally, we present a Linear Softmax Aggregation (LSA) module to explicitly encourage the interactions between multiple similarities and promote the usage of multi-grained information. Empirically, TC-MGC achieves competitive results on multiple text-video retrieval benchmarks, outperforming X-CLIP model by +2.8% (+1.3%), +2.2% (+1.0%), +1.5% (+0.9%) relative (absolute) improvements in text-to-video retrieval R@1 on MSR-VTT, DiDeMo and VATEX, respectively. Our code is publicly available at https://github.com/JingXiaolun/TC-MGC.
- Abstract(参考訳): テキストビデオ検索における粗いコントラストやきめ細かなコントラストの成功により、異なる粒度のコントラストの統合に焦点をあてた多粒なコントラスト学習法が出現する。
しかし、動画のセマンティック範囲が広いため、テキストに依存しないビデオ表現は、テキストに記述されていない誤解を招く情報をエンコードする可能性があるため、モデルが正確なクロスモーダルなセマンティック対応を捉えることを妨げている。
そこで本研究では,TC-MGCと呼ばれるテキスト記述型マルチグラインドコントラストフレームワークを提案する。
具体的には,単語とテキストの注意重みを重み付けした集約されたフレームとビデオ表現を生成するために,言語ビデオアテンションブロックを用いる。
対話型類似度集約(ISA)モジュールにおける不要な類似性相互作用をフィルタリングし、トレーニング可能なパラメータを減少させるため、注意的類似性を特定し、クロスモーダル類似性ベクトルと行列を再編成する類似性再構成(SR)モジュールを設計する。
次に、多粒度類似性における不均衡問題は、過剰表現問題と過小表現問題をもたらす可能性があると論じる。
そこで我々は、類似度分散最小化による協調関係利用を容易にするために、類似度相関規則化(SDR)の補助的損失を導入する。
最後に,複数の類似点間の相互作用を明示的に促進し,多粒度情報の利用を促進するために,Linear Softmax Aggregation (LSA) モジュールを提案する。
TC-MGCは、X-CLIPモデルを+2.8%(+1.3%)、+2.2%(+1.0%)、+1.5%(+0.9%)、MSR-VTT、DiDeMo、VATEXでR@1の相対的(絶対的)改善により、複数のテキストビデオ検索ベンチマークで競合する結果を達成している。
私たちのコードはhttps://github.com/JingXiaolun/TC-MGC.comで公開されています。
関連論文リスト
- Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial
Margin Contrastive Learning [35.404100473539195]
テキストビデオ検索は、関係のないものよりも関連のあるテキストや動画をランク付けすることを目的としている。
最近のコントラスト学習手法は,テキストビデオ検索に有望な結果を示している。
本稿では2つの新しい手法を用いてコントラスト学習を改善する。
論文 参考訳(メタデータ) (2023-09-20T06:08:11Z) - Unified Coarse-to-Fine Alignment for Video-Text Retrieval [71.85966033484597]
UCoFiAと呼ばれる統一粗粒配向モデルを提案する。
我々のモデルは、異なる粒度レベルで、モーダル間の類似情報をキャプチャする。
そこで,Sinkhorn-Knoppアルゴリズムを用いて各レベルの類似性を正規化し,それらを要約する。
論文 参考訳(メタデータ) (2023-09-18T19:04:37Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text
Retrieval [87.3821932795969]
細かなコントラストは粗い粒度の表現と細かな粒度の表現のコントラストである。
X-CLIPはビデオテキスト検索のための新しいマルチグラウンドコントラストモデルである。
X-CLIPは、広く使われている5つのビデオテキスト検索データセットにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-07-15T04:23:42Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。