論文の概要: CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video
Representations
- arxiv url: http://arxiv.org/abs/2109.14910v1
- Date: Thu, 30 Sep 2021 08:12:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-02 01:19:12.576341
- Title: CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video
Representations
- Title(参考訳): CrossCLR: マルチモーダルビデオ表現のためのクロスモーダルコントラスト学習
- Authors: Mohammadreza Zolfaghari, Yi Zhu, Peter Gehler, Thomas Brox
- Abstract要約: 対照的な学習は、負のサンプルの集合から正のペアを対比することで、強力な損失を柔軟に定義することができる。
CrossCLRは、その潜在能力を最大限活用することなく、ビデオとテキストのクロスモーダルな埋め込みを学習する。
これらの原則は、学習された埋め込みの品質を一貫して改善することを示します。
- 参考スコア(独自算出の注目度): 44.068828070517014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive learning allows us to flexibly define powerful losses by
contrasting positive pairs from sets of negative samples. Recently, the
principle has also been used to learn cross-modal embeddings for video and
text, yet without exploiting its full potential. In particular, previous losses
do not take the intra-modality similarities into account, which leads to
inefficient embeddings, as the same content is mapped to multiple points in the
embedding space. With CrossCLR, we present a contrastive loss that fixes this
issue. Moreover, we define sets of highly related samples in terms of their
input embeddings and exclude them from the negative samples to avoid issues
with false negatives. We show that these principles consistently improve the
quality of the learned embeddings. The joint embeddings learned with CrossCLR
extend the state of the art in video-text retrieval on Youcook2 and LSMDC
datasets and in video captioning on Youcook2 dataset by a large margin. We also
demonstrate the generality of the concept by learning improved joint embeddings
for other pairs of modalities.
- Abstract(参考訳): 対照的な学習は、負のサンプルの集合と正のペアを対比することで、強力な損失を柔軟に定義できる。
近年、この原則は、ビデオやテキストのクロスモーダル埋め込みを学ぶためにも使われてきたが、その可能性を最大限に活用することはなかった。
特に、以前の損失はモダリティ内類似性を考慮しておらず、同じ内容が埋め込み空間の複数の点にマッピングされるため、非効率な埋め込みにつながる。
crossclrでは、この問題を修正する対照的な損失を示します。
さらに,それらの入力埋め込みの観点で,関連性の高いサンプルの集合を定義し,偽陰性の問題を避けるために負のサンプルから除外する。
これらの原則は、学習された埋め込みの品質を一貫して改善することを示します。
CrossCLRで学んだ共同埋め込みは、Youcook2データセットとLSMDCデータセットの動画テキスト検索およびYoucook2データセットの動画キャプションにおいて、大きなマージンでテクニックの状態を拡張している。
また,この概念の一般性について,他の対のモダリティに対する改良されたジョイント埋め込みを学習することで実証する。
関連論文リスト
- Continual Contrastive Spoken Language Understanding [33.09005399967931]
COCONUTは、経験リプレイとコントラスト学習の組み合わせに依存するクラスインクリメンタルラーニング(CIL)手法である。
我々は,COCONUTをデコーダ側で動作するメソッドと組み合わせることで,さらなるメトリクス改善を実現することを示す。
論文 参考訳(メタデータ) (2023-10-04T10:09:12Z) - Pre-training-free Image Manipulation Localization through Non-Mutually
Exclusive Contrastive Learning [6.829211387614174]
我々は,Deep Image Manipulation Localization(IML)モデルにおけるデータ不足問題に対処するために,コントラスト学習の方が適していると主張している。
改ざんされたパッチと認証されたパッチは自然に相互に排他的であるが、改ざんされたピクセルと認証されたピクセルの両方を含む輪郭のパッチは相互に排他的である。
本稿では,従来のコントラスト学習を上記のジレンマから救うために,非ミューチュアル排他的コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-26T12:58:44Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z) - Contrastive Learning of Visual-Semantic Embeddings [4.7464518249313805]
本稿では,正規化されたクロスエントロピーに基づく2つの損失関数を提案する。
本研究は,画像・テキスト・テキスト・画像検索タスクにおける既存のビジュアル・セマンティックな埋め込み手法と比較する。
論文 参考訳(メタデータ) (2021-10-17T17:28:04Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Incremental False Negative Detection for Contrastive Learning [95.68120675114878]
本稿では,自己指導型コントラスト学習のための新たな偽陰性検出手法を提案する。
対照的な学習では、検出された偽陰性を明示的に除去する2つの戦略について議論する。
提案手法は,制限された計算内での複数のベンチマークにおいて,他の自己教師付きコントラスト学習フレームワークよりも優れる。
論文 参考訳(メタデータ) (2021-06-07T15:29:14Z) - Contrastive Attraction and Contrastive Repulsion for Representation
Learning [131.72147978462348]
コントラスト学習(CL)法は,複数の負のサンプルに対して,エンコーダが各正のサンプルと対比する自己超越的な方法でデータ表現を学習する。
最近のCL法は、ImageNetのような大規模データセットで事前訓練された場合、有望な結果を得た。
自己グループ内の正と負のサンプルを別々に比較し、正と負の群を対比して進行する2つのCL戦略を提案する。
論文 参考訳(メタデータ) (2021-05-08T17:25:08Z) - Doubly Contrastive Deep Clustering [135.7001508427597]
本稿では、サンプルビューとクラスビューの両方でコントラスト損失を構築する新しい二重コントラストディープクラスタリング(DCDC)フレームワークを紹介します。
具体的には、サンプルビューに対して、元のサンプルとその拡張バージョンのクラス分布を正のサンプルペアとして設定する。
クラスビューでは、クラスのサンプル分布から正のペアと負のペアを構築します。
このように、2つのコントラスト損失は、サンプルとクラスレベルでのミニバッチサンプルのクラスタリング結果をうまく制限します。
論文 参考訳(メタデータ) (2021-03-09T15:15:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。