論文の概要: Active Mining Sample Pair Semantics for Image-text Matching
- arxiv url: http://arxiv.org/abs/2311.05425v1
- Date: Thu, 9 Nov 2023 15:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 14:49:54.313239
- Title: Active Mining Sample Pair Semantics for Image-text Matching
- Title(参考訳): 画像・テキストマッチングのためのアクティブマイニングサンプルペアセマンティクス
- Authors: Yongfeng Chena, Jin Liua, Zhijing Yang, Ruihan Chena, Junpeng Tan
- Abstract要約: 本稿では,Active Mining Sample Pair Semantics Image-text matching model (AMSPS)と呼ばれる新しい画像テキストマッチングモデルを提案する。
3重項損失関数を持つコモンセンス学習モデルの1つの意味学習モードと比較して、AMSPSはアクティブな学習アイデアである。
- 参考スコア(独自算出の注目度): 6.370886833310617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, commonsense learning has been a hot topic in image-text matching.
Although it can describe more graphic correlations, commonsense learning still
has some shortcomings: 1) The existing methods are based on triplet semantic
similarity measurement loss, which cannot effectively match the intractable
negative in image-text sample pairs. 2) The weak generalization ability of the
model leads to the poor effect of image and text matching on large-scale
datasets. According to these shortcomings. This paper proposes a novel
image-text matching model, called Active Mining Sample Pair Semantics
image-text matching model (AMSPS). Compared with the single semantic learning
mode of the commonsense learning model with triplet loss function, AMSPS is an
active learning idea. Firstly, the proposed Adaptive Hierarchical Reinforcement
Loss (AHRL) has diversified learning modes. Its active learning mode enables
the model to more focus on the intractable negative samples to enhance the
discriminating ability. In addition, AMSPS can also adaptively mine more hidden
relevant semantic representations from uncommented items, which greatly
improves the performance and generalization ability of the model. Experimental
results on Flickr30K and MSCOCO universal datasets show that our proposed
method is superior to advanced comparison methods.
- Abstract(参考訳): 近年,画像テキストマッチングにおけるコモンセンス学習が話題となっている。
よりグラフィック的な相関を記述できるが、コモンセンス学習にはまだまだ欠点がある。
1) 既存の手法は3重項のセマンティック類似度測定損失に基づいており, 画像-テキストサンプルペアの難解な負値と効果的に一致できない。
2)モデルの弱い一般化能力は,大規模データセットに対する画像およびテキストマッチングの効果を低下させる。
これらの欠点により。
本稿では,Active Mining Sample Pair Semantics Image-text matching model (AMSPS)と呼ばれる新しい画像テキストマッチングモデルを提案する。
3重項損失関数を持つcommonsense学習モデルの単一意味学習モードと比較すると、amspsはアクティブな学習アイデアである。
まず,適応型階層型強化損失 (ahrl) の学習モードが多様化した。
アクティブな学習モードにより、モデルは難解な負のサンプルに集中し、識別能力を高めることができる。
さらに、AMSPSは、より隠れた関連する意味表現を非圧縮アイテムから適応的にマイニングすることができるため、モデルの性能と一般化能力は大幅に向上する。
Flickr30K と MSCOCO のユニバーサルデータセットを用いた実験結果から,提案手法は高度な比較法よりも優れていることが示された。
関連論文リスト
- Active Learning for Finely-Categorized Image-Text Retrieval by Selecting Hard Negative Unpaired Samples [7.883521157895832]
画像テキスト検索(ITR)モデルをトレーニングするには、十分な量のペアデータを確保することが重要である。
ITRのための能動的学習アルゴリズムを提案し、ペア化されたデータを低コストで収集する。
提案手法の有効性をFlickr30KおよびMS-COCOデータセットで検証した。
論文 参考訳(メタデータ) (2024-05-25T16:50:33Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial
Margin Contrastive Learning [35.404100473539195]
テキストビデオ検索は、関係のないものよりも関連のあるテキストや動画をランク付けすることを目的としている。
最近のコントラスト学習手法は,テキストビデオ検索に有望な結果を示している。
本稿では2つの新しい手法を用いてコントラスト学習を改善する。
論文 参考訳(メタデータ) (2023-09-20T06:08:11Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Negative Sample is Negative in Its Own Way: Tailoring Negative Sentences
for Image-Text Retrieval [19.161248757493386]
本稿では, 否定文として自動的に合成文を生成するために, 識別・訂正による否定文をTAGS-DC(TAiloring Negative Sentences with Discrimination and Correction)を提案する。
トレーニング中の難易度を維持するため,パラメータ共有による検索と生成を相互に改善する。
実験では,MS-COCOおよびFlickr30Kにおけるモデルの有効性を,現在の最先端モデルと比較して検証した。
論文 参考訳(メタデータ) (2021-11-05T09:36:41Z) - Contrastive Learning of Visual-Semantic Embeddings [4.7464518249313805]
本稿では,正規化されたクロスエントロピーに基づく2つの損失関数を提案する。
本研究は,画像・テキスト・テキスト・画像検索タスクにおける既存のビジュアル・セマンティックな埋め込み手法と比較する。
論文 参考訳(メタデータ) (2021-10-17T17:28:04Z) - Delving into Inter-Image Invariance for Unsupervised Visual
Representations [108.33534231219464]
画像間不変学習の役割をよりよく理解するための研究を提案する。
オンラインラベルはオフラインラベルよりも早く収束する。
半硬な負のサンプルは、硬い負のサンプルよりも信頼性が高く、偏りがない。
論文 参考訳(メタデータ) (2020-08-26T17:44:23Z) - Adaptive Offline Quintuplet Loss for Image-Text Matching [102.50814151323965]
既存の画像テキストマッチングアプローチでは、オンラインのハードネガティブによるトリプルト損失を利用してモデルをトレーニングするのが一般的である。
トレーニングセット全体からオフラインで負をサンプリングして解を提案する。
我々は,MS-COCOとFlickr30Kデータセットを用いた3つの最先端画像テキストモデルに対するトレーニング手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-07T22:09:11Z) - Learning to Compare Relation: Semantic Alignment for Few-Shot Learning [48.463122399494175]
本稿では,コンテンツアライメントに頑健な関係を比較するための新しいセマンティックアライメントモデルを提案する。
数ショットの学習データセットについて広範な実験を行う。
論文 参考訳(メタデータ) (2020-02-29T08:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。