論文の概要: Image-Text Retrieval with Binary and Continuous Label Supervision
- arxiv url: http://arxiv.org/abs/2210.11319v1
- Date: Thu, 20 Oct 2022 14:52:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 15:42:43.715692
- Title: Image-Text Retrieval with Binary and Continuous Label Supervision
- Title(参考訳): バイナリと連続ラベルによる画像テキスト検索
- Authors: Zheng Li, Caili Guo, Zerun Feng, Jenq-Neng Hwang, Ying Jin, Yufeng
Zhang
- Abstract要約: 本稿では,BCLS(Binary and Continuous Label Supervision)を用いた画像テキスト検索フレームワークを提案する。
バイナリラベルの学習において,ソフトネガティブマイニング(Triplet-SN)による一般的なトリプルトランキングの損失を改善し,収束性を向上させる。
連続ラベルの学習のために,Kendallランク相関係数(Kendallランク相関係数)に着想を得たKendallランキングの損失を設計し,検索モデルと連続ラベルとの類似度スコアの相関性を改善する。
- 参考スコア(独自算出の注目度): 38.682970905704906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most image-text retrieval work adopts binary labels indicating whether a pair
of image and text matches or not. Such a binary indicator covers only a limited
subset of image-text semantic relations, which is insufficient to represent
relevance degrees between images and texts described by continuous labels such
as image captions. The visual-semantic embedding space obtained by learning
binary labels is incoherent and cannot fully characterize the relevance
degrees. In addition to the use of binary labels, this paper further
incorporates continuous pseudo labels (generally approximated by text
similarity between captions) to indicate the relevance degrees. To learn a
coherent embedding space, we propose an image-text retrieval framework with
Binary and Continuous Label Supervision (BCLS), where binary labels are used to
guide the retrieval model to learn limited binary correlations, and continuous
labels are complementary to the learning of image-text semantic relations. For
the learning of binary labels, we improve the common Triplet ranking loss with
Soft Negative mining (Triplet-SN) to improve convergence. For the learning of
continuous labels, we design Kendall ranking loss inspired by Kendall rank
correlation coefficient (Kendall), which improves the correlation between the
similarity scores predicted by the retrieval model and the continuous labels.
To mitigate the noise introduced by the continuous pseudo labels, we further
design Sliding Window sampling and Hard Sample mining strategy (SW-HS) to
alleviate the impact of noise and reduce the complexity of our framework to the
same order of magnitude as the triplet ranking loss. Extensive experiments on
two image-text retrieval benchmarks demonstrate that our method can improve the
performance of state-of-the-art image-text retrieval models.
- Abstract(参考訳): ほとんどの画像テキスト検索作業では、画像とテキストのペアが一致するかどうかを示すバイナリラベルを採用している。
このようなバイナリインジケータは、画像とテキストのセマンティックリレーションの限られたサブセットのみをカバーするが、画像キャプションのような連続ラベルによって記述される画像とテキストの関連度を表現できない。
二項ラベルを学習して得られる視覚的意味埋め込み空間は不整合であり、関連度を完全に特徴づけることができない。
本論文では,バイナリラベルの使用に加えて,連続的な擬似ラベル(キャプション間のテキスト類似度によって近似されることが多い)も取り入れて,関連度を示す。
そこで本研究では,二項ラベルと連続ラベル監督(bcls)を用いた画像テキスト検索フレームワークを提案する。二項ラベルを用いて,検索モデルに限定された二項相関を学習し,連続ラベルを画像テキスト意味関係の学習に補完する。
バイナリラベルの学習において,ソフトネガティブマイニング(Triplet-SN)による一般的なトリプルトランキングの損失を改善し,収束性を向上させる。
連続ラベルの学習のために,Kendallランク相関係数(Kendallランク相関係数)に着想を得たKendallランキングの損失を設計し,検索モデルと連続ラベルとの類似度スコアの相関性を改善する。
連続的な擬似ラベルがもたらすノイズを軽減するため、スライディングウィンドウサンプリングとハードサンプルマイニング戦略(SW-HS)をさらに設計し、ノイズの影響を緩和し、我々のフレームワークの複雑さを三重項ランキングの損失と同じ桁に減らした。
2つの画像テキスト検索ベンチマークに関する広範囲な実験により,本手法が最先端画像テキスト検索モデルの性能を向上させることを証明した。
関連論文リスト
- DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z) - Joint Class-Affinity Loss Correction for Robust Medical Image
Segmentation with Noisy Labels [22.721870430220598]
ノイズラベルは 医用画像分割アルゴリズムが 正確な意味的相関を 学習するのを防いでいる
画素ワイズとペアワイズの両方を取り入れたノイズ緩和のための新しい視点を提案する。
医用画像のセグメンテーションにおけるラベルノイズ問題に対処する頑健なジョイントクラスアフィニティ(JCAS)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-16T08:19:33Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Scene Graph Embeddings Using Relative Similarity Supervision [4.137464623395376]
グラフ畳み込みネットワークを用いて,シーングラフの構造を活用し,意味的画像検索に有用な画像埋め込みを生成する。
本稿では,類似画像と類似画像の対で動作し,それらの間の相対順序を埋め込み空間に課す新しい損失関数を提案する。
このランキング損失と直感的なトリプルサンプリング戦略が、検索タスクでよく知られたコントラスト損失を上回った堅牢な表現につながることを実証します。
論文 参考訳(メタデータ) (2021-04-06T09:13:05Z) - Reconstruction Regularized Deep Metric Learning for Multi-label Image
Classification [39.055689258395624]
本稿では,多ラベル画像分類問題に対処する新しい深度距離学習法を提案する。
私たちのモデルはエンドツーエンドでトレーニングできます。
論文 参考訳(メタデータ) (2020-07-27T13:28:50Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。