論文の概要: Negative Sample is Negative in Its Own Way: Tailoring Negative Sentences
for Image-Text Retrieval
- arxiv url: http://arxiv.org/abs/2111.03349v1
- Date: Fri, 5 Nov 2021 09:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 14:43:24.518405
- Title: Negative Sample is Negative in Its Own Way: Tailoring Negative Sentences
for Image-Text Retrieval
- Title(参考訳): 否定的サンプルは、独自の方法で否定的:画像テキスト検索のための否定的文の整理
- Authors: Zhihao Fan, Zhongyu Wei, Zejun Li, Siyuan Wang, Jianqing Fan
- Abstract要約: 本稿では, 否定文として自動的に合成文を生成するために, 識別・訂正による否定文をTAGS-DC(TAiloring Negative Sentences with Discrimination and Correction)を提案する。
トレーニング中の難易度を維持するため,パラメータ共有による検索と生成を相互に改善する。
実験では,MS-COCOおよびFlickr30Kにおけるモデルの有効性を,現在の最先端モデルと比較して検証した。
- 参考スコア(独自算出の注目度): 19.161248757493386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Matching model is essential for Image-Text Retrieval framework. Existing
research usually train the model with a triplet loss and explore various
strategy to retrieve hard negative sentences in the dataset. We argue that
current retrieval-based negative sample construction approach is limited in the
scale of the dataset thus fail to identify negative sample of high difficulty
for every image. We propose our TAiloring neGative Sentences with
Discrimination and Correction (TAGS-DC) to generate synthetic sentences
automatically as negative samples. TAGS-DC is composed of masking and refilling
to generate synthetic negative sentences with higher difficulty. To keep the
difficulty during training, we mutually improve the retrieval and generation
through parameter sharing. To further utilize fine-grained semantic of mismatch
in the negative sentence, we propose two auxiliary tasks, namely word
discrimination and word correction to improve the training. In experiments, we
verify the effectiveness of our model on MS-COCO and Flickr30K compared with
current state-of-the-art models and demonstrates its robustness and
faithfulness in the further analysis. Our code is available in
https://github.com/LibertFan/TAGS.
- Abstract(参考訳): マッチングモデルは、Image-Text Retrievalフレームワークに不可欠である。
既存の研究は通常、三重項損失でモデルを訓練し、データセットで難しい否定文を取得するための様々な戦略を探求する。
現在の検索に基づく負のサンプル構築手法はデータセットの規模に制限があるため、画像毎に高い難易度を示す負のサンプルを特定することができない。
識別・修正(tags-dc)により合成文を自動的に負のサンプルとして生成する手法を提案する。
TAGS-DCはマスキングと補充によって構成され、より難易度の高い合成陰文を生成する。
トレーニング中の難易度を維持するため,パラメータ共有による検索と生成を相互に改善する。
否定文におけるミスマッチのきめ細かい意味を更に活用するために,単語識別と単語訂正という2つの補助的タスクを提案する。
実験では,MS-COCOおよびFlickr30Kにおけるモデルの有効性を現在の最先端モデルと比較し検証し,その堅牢性と忠実性を示す。
私たちのコードはhttps://github.com/libertfan/tagsで利用可能です。
関連論文リスト
- Mitigating the Impact of False Negatives in Dense Retrieval with
Contrastive Confidence Regularization [15.204113965411777]
ノイズコントラスト推定(NCE)損失に対する新しいコントラスト信頼度正規化器を提案する。
解析の結果,正則化器はより高密度な検索モデルにおいて,理論的保証のある偽陰性に対してより堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-12-30T08:01:57Z) - Active Mining Sample Pair Semantics for Image-text Matching [6.370886833310617]
本稿では,Active Mining Sample Pair Semantics Image-text matching model (AMSPS)と呼ばれる新しい画像テキストマッチングモデルを提案する。
3重項損失関数を持つコモンセンス学習モデルの1つの意味学習モードと比較して、AMSPSはアクティブな学習アイデアである。
論文 参考訳(メタデータ) (2023-11-09T15:03:57Z) - Enhancing Multimodal Compositional Reasoning of Visual Language Models
with Generative Negative Mining [58.379339799777064]
大規模視覚言語モデル(VLM)は、強力な表現能力を示し、画像およびテキスト理解タスクを強化するためにユビキタスである。
両方向のマイニングだけでなく,両方向の否定的なサンプルを生成するフレームワークを提案する。
私たちのコードとデータセットはhttps://ugorsahin.github.io/enhancing-multimodal-compositional-reasoning-of-vlm.htmlで公開されています。
論文 参考訳(メタデータ) (2023-11-07T13:05:47Z) - Your Negative May not Be True Negative: Boosting Image-Text Matching
with False Negative Elimination [62.18768931714238]
提案手法は, サンプリングによる新規な偽陰性除去 (FNE) 戦略である。
その結果,提案した偽陰性除去戦略の優位性が示された。
論文 参考訳(メタデータ) (2023-08-08T16:31:43Z) - Debiased Contrastive Learning of Unsupervised Sentence Representations [88.58117410398759]
コントラスト学習は、事前訓練された言語モデル(PLM)を改善し、高品質な文表現を導き出すのに有効である。
以前の作業は、主にランダムにトレーニングデータからバッチ内陰性またはサンプルを採用する。
我々はこれらの不適切な負の影響を軽減するための新しいフレームワーク textbfDCLR を提案する。
論文 参考訳(メタデータ) (2022-05-02T05:07:43Z) - Exploring Negatives in Contrastive Learning for Unpaired Image-to-Image
Translation [12.754320302262533]
我々は、パッチをスペーシングし、ランキング付けすることで、アンペア画像から画像への変換(PUT)のための新しい負のプルーニング技術を導入する。
提案アルゴリズムは効率的で柔軟で,対応するパッチ間で本質的な情報を安定的に学習することができる。
論文 参考訳(メタデータ) (2022-04-23T08:31:18Z) - Exploring the Impact of Negative Samples of Contrastive Learning: A Case
Study of Sentence Embedding [14.295787044482136]
文埋め込みのための負のサンプル列を持つモーメントコントラスト学習モデル、すなわちMoCoSEを提案する。
我々は最大トレーサブル距離測定値を定義し、テキストが負のサンプルの履歴情報からどの程度の差があるかを学習する。
実験の結果,最大トレーサブル距離が一定の範囲にある場合に最もよい結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-02-26T08:29:25Z) - Instance-wise Hard Negative Example Generation for Contrastive Learning
in Unpaired Image-to-Image Translation [102.99799162482283]
非ペア画像-画像翻訳(NEGCUT)におけるコントラスト学習のための例-wise hard Negative Example Generationを提案する。
具体的には、オンラインでネガティブな例を生成するようにジェネレータを訓練する。ジェネレータは、1)入力画像に基づいて生成されたサンプルをインスタンスワイズし、2)逆向きの損失で訓練されたので、強烈なネガティブな例を生成することができる。
論文 参考訳(メタデータ) (2021-08-10T09:44:59Z) - Contrastive Learning with Hard Negative Samples [80.12117639845678]
我々は, 厳密な陰性サンプルを選択するために, 教師なしサンプリング手法を新たに開発する。
このサンプリングの制限ケースは、各クラスをしっかりとクラスタ化し、可能な限り異なるクラスを遠くにプッシュする表現をもたらす。
提案手法は、複数のモードをまたいだダウンストリーム性能を改善し、実装するコード行数が少なく、計算オーバーヘッドを伴わない。
論文 参考訳(メタデータ) (2020-10-09T14:18:53Z) - Adaptive Offline Quintuplet Loss for Image-Text Matching [102.50814151323965]
既存の画像テキストマッチングアプローチでは、オンラインのハードネガティブによるトリプルト損失を利用してモデルをトレーニングするのが一般的である。
トレーニングセット全体からオフラインで負をサンプリングして解を提案する。
我々は,MS-COCOとFlickr30Kデータセットを用いた3つの最先端画像テキストモデルに対するトレーニング手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-07T22:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。