論文の概要: Unified Loss of Pair Similarity Optimization for Vision-Language
Retrieval
- arxiv url: http://arxiv.org/abs/2209.13869v1
- Date: Wed, 28 Sep 2022 07:01:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 18:07:58.574241
- Title: Unified Loss of Pair Similarity Optimization for Vision-Language
Retrieval
- Title(参考訳): 視覚言語検索のためのペア類似度最適化の統一損失
- Authors: Zheng Li, Caili Guo, Xin Wang, Zerun Feng, Jenq-Neng Hwang, Zhongtian
Du
- Abstract要約: 視覚言語検索には2つの一般的な損失関数、すなわち三重項損失と対照的な学習損失がある。
本稿では,視覚言語検索のためのペア類似度最適化の統一的損失を提案する。
- 参考スコア(独自算出の注目度): 35.141916376979836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are two popular loss functions used for vision-language retrieval,
i.e., triplet loss and contrastive learning loss, both of them essentially
minimize the difference between the similarities of negative pairs and positive
pairs. More specifically, Triplet loss with Hard Negative mining (Triplet-HN),
which is widely used in existing retrieval models to improve the discriminative
ability, is easy to fall into local minima in training. On the other hand,
Vision-Language Contrastive learning loss (VLC), which is widely used in the
vision-language pre-training, has been shown to achieve significant performance
gains on vision-language retrieval, but the performance of fine-tuning with VLC
on small datasets is not satisfactory. This paper proposes a unified loss of
pair similarity optimization for vision-language retrieval, providing a
powerful tool for understanding existing loss functions. Our unified loss
includes the hard sample mining strategy of VLC and introduces the margin used
by the triplet loss for better similarity separation. It is shown that both
Triplet-HN and VLC are special forms of our unified loss. Compared with the
Triplet-HN, our unified loss has a fast convergence speed. Compared with the
VLC, our unified loss is more discriminative and can provide better
generalization in downstream fine-tuning tasks. Experiments on image-text and
video-text retrieval benchmarks show that our unified loss can significantly
improve the performance of the state-of-the-art retrieval models.
- Abstract(参考訳): 視覚言語検索によく使われる2つの損失関数、すなわち三重項損失と対照的な学習損失があり、どちらも本質的に負の対と正の対の類似性の違いを最小化している。
より具体的には、既存の検索モデルにおいて識別能力を向上させるために広く使われている硬い負のマイニング(triplet-hn)による三重項損失は、訓練において局所的なミニマムに陥りやすい。
一方、視覚言語事前学習で広く用いられている視覚言語コントラスト学習損失(VLC)は、視覚言語検索において顕著な性能向上が示されているが、小さなデータセット上でのVLCによる微調整の性能は十分ではない。
本稿では、視覚言語検索のためのペア類似度最適化の統一的損失を提案し、既存の損失関数を理解する強力なツールを提供する。
我々の統合的損失は、VLCのハードサンプルマイニング戦略を含み、類似性分離を改善するために三重項損失が使用するマージンを導入する。
その結果,Triplet-HN と VLC は共に統合損失の特別な形態であることがわかった。
Triplet-HNと比較して、我々の統合損失は高速収束速度を持つ。
VLCと比較して、統一的な損失はより差別的であり、下流の微調整タスクにおいてより良い一般化を提供することができる。
画像テキストおよびビデオテキスト検索ベンチマークによる実験では,統一的損失が最先端検索モデルの性能を著しく向上できることが示されている。
関連論文リスト
- Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - Expressive Losses for Verified Robustness via Convex Combinations [67.54357965665676]
本研究では, 過近似係数と異なる表現的損失に対する性能分布の関係について検討した。
表現性が不可欠である一方で、最悪の場合の損失のより良い近似は、必ずしも優れた堅牢性-正確性トレードオフに結びついていないことを示す。
論文 参考訳(メタデータ) (2023-05-23T12:20:29Z) - Tuned Contrastive Learning [77.67209954169593]
そこで本研究では,TCL(Tuned Contrastive Learning)損失という,新たなコントラスト損失関数を提案する。
TCLはバッチ内の複数の正と負に一般化し、ハードな正とハードな負の勾配応答を調整および改善するためのパラメータを提供する。
我々は、TCLを自己教師付き設定に拡張する方法を示し、それを様々なSOTA自己教師型学習手法と経験的に比較する。
論文 参考訳(メタデータ) (2023-05-18T03:26:37Z) - SuSana Distancia is all you need: Enforcing class separability in metric
learning via two novel distance-based loss functions for few-shot image
classification [0.9236074230806579]
本稿では,少数のデータ間のクラス内距離とクラス間距離を調べることで,埋め込みベクトルの重要性を考慮に入れた2つの損失関数を提案する。
以上の結果から,miniImagenNetベンチマークの精度は,他のメトリクスベースの数ショット学習手法に比べて2%向上した。
論文 参考訳(メタデータ) (2023-05-15T23:12:09Z) - Adaptive Sparse Pairwise Loss for Object Re-Identification [25.515107212575636]
ペアワイズ損失は、強力なReIDネットワークのトレーニングにおいて重要な役割を果たす。
スパースペアワイズ(SP)ロスと呼ばれる新しい損失パラダイムを提案する。
また,SP損失と適応型AdaSP損失は,他のペア損失よりも優れていた。
論文 参考訳(メタデータ) (2023-03-31T17:59:44Z) - Benchmarking Deep AUROC Optimization: Loss Functions and Algorithmic
Choices [37.559461866831754]
我々は、深いAUROC最適化問題に対するアルゴリズム選択の異なる様々な損失関数をベンチマークする。
正のサンプリング率、正規化、正規化/アクティベーション、重みなどの重要な選択を強調した。
以上の結果から,Adam-type法はトレーニングの面では競争力が高いが,テストの面では他よりも優れていないことが示唆された。
論文 参考訳(メタデータ) (2022-03-27T00:47:00Z) - Do Lessons from Metric Learning Generalize to Image-Caption Retrieval? [67.45267657995748]
半ハードな負のトリプルト損失は、スクラッチから最適化されたイメージキャプション検索(ICR)メソッドのデファクト選択となっている。
近年のメトリクス学習の進歩により、画像検索や表現学習といったタスクにおいて、三重項損失を上回る新たな損失関数が生まれている。
これらの結果は,2つのICR法における3つの損失関数を比較することで,ICRの設定に一般化するかどうかを問う。
論文 参考訳(メタデータ) (2022-02-14T15:18:00Z) - Robust Contrastive Learning against Noisy Views [79.71880076439297]
ノイズの多い視点に対して頑健な新しいコントラスト損失関数を提案する。
提案手法は,最新の画像,ビデオ,グラフのコントラスト学習ベンチマークに対して一貫した改善を提供する。
論文 参考訳(メタデータ) (2022-01-12T05:24:29Z) - A Decidability-Based Loss Function [2.5919311269669003]
生体認証問題は、ディープラーニングモデルを使用して画像から特徴を抽出する。
本研究では,検証ルーチンの埋め込み品質を向上させるために,決定可能性指数に基づく損失関数を提案する。
提案手法は,4つのベンチマークにおいて,ソフトマックス(クロスエントロピー),トリプレットソフトハード,マルチ類似性損失に対して比較される。
論文 参考訳(メタデータ) (2021-09-12T14:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。