論文の概要: Contrastive Learning of Visual-Semantic Embeddings
- arxiv url: http://arxiv.org/abs/2110.08872v1
- Date: Sun, 17 Oct 2021 17:28:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 15:34:53.100062
- Title: Contrastive Learning of Visual-Semantic Embeddings
- Title(参考訳): 視覚・視覚埋め込みのコントラスト学習
- Authors: Anurag Jain and Yashaswi Verma
- Abstract要約: 本稿では,正規化されたクロスエントロピーに基づく2つの損失関数を提案する。
本研究は,画像・テキスト・テキスト・画像検索タスクにおける既存のビジュアル・セマンティックな埋め込み手法と比較する。
- 参考スコア(独自算出の注目度): 4.7464518249313805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning is a powerful technique to learn representations that
are semantically distinctive and geometrically invariant. While most of the
earlier approaches have demonstrated its effectiveness on single-modality
learning tasks such as image classification, recently there have been a few
attempts towards extending this idea to multi-modal data. In this paper, we
propose two loss functions based on normalized cross-entropy to perform the
task of learning joint visual-semantic embedding using batch contrastive
training. In a batch, for a given anchor point from one modality, we consider
its negatives only from another modality, and define our first contrastive loss
based on expected violations incurred by all the negatives. Next, we update
this loss and define the second contrastive loss based on the violation
incurred only by the hardest negative. We compare our results with existing
visual-semantic embedding methods on cross-modal image-to-text and
text-to-image retrieval tasks using the MS-COCO and Flickr30K datasets, where
we outperform the state-of-the-art on the MS-COCO dataset and achieve
comparable results on the Flickr30K dataset.
- Abstract(参考訳): コントラスト学習は意味的に独特で幾何学的に不変な表現を学習する強力な技術である。
初期のアプローチのほとんどは、画像分類などの単一モダリティ学習タスクにおいて有効性を示しているが、近年、このアイデアをマルチモーダルデータに拡張する試みがいくつかある。
本稿では,正規化されたクロスエントロピーに基づく2つの損失関数を提案する。
バッチでは、あるモダリティから与えられたアンカーポイントに対して、その負は別のモダリティからのみ考慮し、全ての負によって生じる予想される違反に基づいて、最初の対照的な損失を定義する。
次に、この損失を更新し、最も厳しい負のみによる違反に基づいて、第2のコントラスト損失を定義する。
我々は,MS-COCOデータセットとFlickr30Kデータセットを用いて,モーダルな画像とテキスト,テキストと画像の検索タスクに対する既存のビジュアル・セマンティックな埋め込み手法との比較を行った。
関連論文リスト
- Separating common from salient patterns with Contrastive Representation
Learning [2.250968907999846]
コントラスト分析は、2つのデータセット間の変動の共通要因を分離することを目的としている。
変分オートエンコーダに基づく現在のモデルは意味表現の学習において性能が劣っている。
コントラスト分析に適合した意味表現表現を学習するためのコントラスト学習の活用を提案する。
論文 参考訳(メタデータ) (2024-02-19T08:17:13Z) - Active Mining Sample Pair Semantics for Image-text Matching [6.370886833310617]
本稿では,Active Mining Sample Pair Semantics Image-text matching model (AMSPS)と呼ばれる新しい画像テキストマッチングモデルを提案する。
3重項損失関数を持つコモンセンス学習モデルの1つの意味学習モードと比較して、AMSPSはアクティブな学習アイデアである。
論文 参考訳(メタデータ) (2023-11-09T15:03:57Z) - LSEH: Semantically Enhanced Hard Negatives for Cross-modal Information
Retrieval [0.4264192013842096]
Visual Semantic Embedding (VSE)は、画像の意味と記述を抽出し、それらを同じ潜在空間に埋め込んで情報検索を行う。
既存のほとんどのVSEネットワークは、関連する画像記述組込みペアの類似性と無関係な画像記述組込みペアの客観的なマージンを学習するハードネガティブ損失関数を採用することで訓練されている。
本稿では,(1)画像記述の基盤となるセマンティクスの発見,(2)新たなセマンティクス強化型ハードネガティブ損失関数を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:09:39Z) - Mix-up Self-Supervised Learning for Contrast-agnostic Applications [33.807005669824136]
コントラストに依存しないアプリケーションのための,最初の混合型自己教師型学習フレームワークを提案する。
クロスドメイン・ミックスアップに基づく画像間の低分散に対処し、画像再構成と透明性予測に基づくプレテキストタスクを構築する。
論文 参考訳(メタデータ) (2022-04-02T16:58:36Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Robust Contrastive Learning against Noisy Views [79.71880076439297]
ノイズの多い視点に対して頑健な新しいコントラスト損失関数を提案する。
提案手法は,最新の画像,ビデオ,グラフのコントラスト学習ベンチマークに対して一貫した改善を提供する。
論文 参考訳(メタデータ) (2022-01-12T05:24:29Z) - Weakly Supervised Contrastive Learning [68.47096022526927]
この問題に対処するために,弱教師付きコントラスト学習フレームワーク(WCL)を導入する。
WCLはResNet50を使用して65%と72%のImageNet Top-1の精度を実現している。
論文 参考訳(メタデータ) (2021-10-10T12:03:52Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Incremental False Negative Detection for Contrastive Learning [95.68120675114878]
本稿では,自己指導型コントラスト学習のための新たな偽陰性検出手法を提案する。
対照的な学習では、検出された偽陰性を明示的に除去する2つの戦略について議論する。
提案手法は,制限された計算内での複数のベンチマークにおいて,他の自己教師付きコントラスト学習フレームワークよりも優れる。
論文 参考訳(メタデータ) (2021-06-07T15:29:14Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。