論文の概要: Converting and Smoothing False Negatives for Vision-Language
Pre-training
- arxiv url: http://arxiv.org/abs/2312.06112v1
- Date: Mon, 11 Dec 2023 04:33:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 17:07:12.372030
- Title: Converting and Smoothing False Negatives for Vision-Language
Pre-training
- Title(参考訳): ビジョンランゲージ事前学習のための変換と平滑化
- Authors: Jaeseok Byun, Dohoon Kim, and Taesup Moon
- Abstract要約: 偽陰性問題を管理するCOSMO(Converting and SMOoothing false negatives)という手法を提案する。
最近開発されたGRouped mIni-baTch サンプリング (GRIT) 戦略に基づいて,本手法は2つの主成分から構成される。
- 参考スコア(独自算出の注目度): 17.836155361629718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the critical issue of false negatives in Vision-Language
Pre-training (VLP), a challenge that arises from the inherent many-to-many
correspondence of image-text pairs in large-scale web-crawled datasets. The
presence of false negatives can impede achieving optimal performance and even
lead to learning failures. To address this challenge, we propose a method
called COSMO (COnverting and SMOoothing false negatives) that manages the false
negative issues, especially powerful in hard negative sampling. Building upon
the recently developed GRouped mIni-baTch sampling (GRIT) strategy, our
approach consists of two pivotal components: 1) an efficient connection mining
process that identifies and converts false negatives into positives, and 2)
label smoothing for the image-text contrastive loss (ITC). Our comprehensive
experiments verify the effectiveness of COSMO across multiple downstream tasks,
emphasizing the crucial role of addressing false negatives in VLP, potentially
even surpassing the importance of addressing false positives. In addition, the
compatibility of COSMO with the recent BLIP-family model is also demonstrated.
- Abstract(参考訳): 本稿では、大規模ウェブクローリングデータセットにおける画像テキストペアの多対多対応から生じる課題であるVLP(Vision-Language Pre-training)における偽陰性の問題について考察する。
偽陰性の存在は、最適なパフォーマンスを達成するのを妨げ、さらには失敗を学ぶことにつながる。
そこで本研究では,偽陰性問題を管理するcosmo (converting and smooothing false negatives) という手法を提案する。
GRouped mIni-baTch サンプリング (GRIT) 戦略に基づいて,本手法は2つの重要な要素から構成される。
1)偽陰性を正に識別し、変換する効率的な接続マイニングプロセス
2) 画像テキストコントラスト損失(ITC)のラベルスムース化。
総合的な実験により,複数の下流タスクにおけるcosmosの有効性が検証され,vlpにおける偽陰性に対処する重要な役割が強調された。
さらに,最近のblip-familyモデルとのcosmoの互換性も実証された。
関連論文リスト
- Contrastive Learning with Negative Sampling Correction [52.990001829393506]
PUCL(Positive-Unlabeled Contrastive Learning)という新しいコントラスト学習手法を提案する。
PUCLは生成した負のサンプルをラベルのないサンプルとして扱い、正のサンプルからの情報を用いて、対照的な損失のバイアスを補正する。
PUCLは一般的なコントラスト学習問題に適用でき、様々な画像やグラフの分類タスクにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-01-13T11:18:18Z) - Your Negative May not Be True Negative: Boosting Image-Text Matching
with False Negative Elimination [62.18768931714238]
提案手法は, サンプリングによる新規な偽陰性除去 (FNE) 戦略である。
その結果,提案した偽陰性除去戦略の優位性が示された。
論文 参考訳(メタデータ) (2023-08-08T16:31:43Z) - Vision Language Pre-training by Contrastive Learning with Cross-Modal
Similarity Regulation [44.851623239151124]
視覚言語におけるクロスモーダルなコントラスト学習は、(一部)偽陰性の挑戦に直面している。
画像/テキストアンカーとその負のテキスト/画像間のMIをより正確に最適化する。
論文 参考訳(メタデータ) (2023-05-08T05:53:30Z) - Language Model Pre-training on True Negatives [109.73819321246062]
差別的事前訓練言語モデル(PLM)は、故意に破損した言語から原文を予測することを学ぶ。
既存のPLMは、すべての破損したテキストを検査せずに同等に否定的に扱う。
我々は、偽陰性予測に対処し、真陰性に関する事前学習言語モデルを促進するために、強化された事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-12-01T12:24:19Z) - Positive-Negative Equal Contrastive Loss for Semantic Segmentation [8.664491798389662]
従来の作業では、グローバルコンテキストを効果的に抽出し集約するために、プラグアンドプレイモジュールと構造的損失を設計するのが一般的だった。
そこで我々は, 正負の負の正の負の負の正の負の正の負の正の負の負の負の正の負の負の正の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の
総合的な実験を行い、2つのベンチマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-04T13:51:29Z) - Contrastive Attraction and Contrastive Repulsion for Representation
Learning [131.72147978462348]
コントラスト学習(CL)法は,複数の負のサンプルに対して,エンコーダが各正のサンプルと対比する自己超越的な方法でデータ表現を学習する。
最近のCL法は、ImageNetのような大規模データセットで事前訓練された場合、有望な結果を得た。
自己グループ内の正と負のサンプルを別々に比較し、正と負の群を対比して進行する2つのCL戦略を提案する。
論文 参考訳(メタデータ) (2021-05-08T17:25:08Z) - Relation-aware Graph Attention Model With Adaptive Self-adversarial
Training [29.240686573485718]
本稿では,不均一なマルチリレーショナルグラフにおける関係予測タスクのエンドツーエンドソリューションについて述べる。
特にパイプライン内の2つのビルディングブロック、すなわちヘテロジニアスグラフ表現学習と負のサンプリングに対処する。
パラメータフリーな負のサンプリング手法であるadaptive self-adversarial (asa) 負のサンプリングを導入する。
論文 参考訳(メタデータ) (2021-02-14T16:11:56Z) - Towards Overcoming False Positives in Visual Relationship Detection [95.15011997876606]
視覚的関係検出(VRD)における偽陽性率の高い原因について検討する。
本稿では,偽陽性の影響を軽減する堅牢なVRDフレームワークとして,Spatially-Aware Balanced negative pRoposal sAmpling(SABRA)を提案する。
論文 参考訳(メタデータ) (2020-12-23T06:28:00Z) - Simplify and Robustify Negative Sampling for Implicit Collaborative
Filtering [42.832851785261894]
本稿では,まず,モデル学習において潜在的に重要な事例が少数存在することを実証的に観察し,ネガティブな事例を新たに理解する。
次に、メモリに格納された高分散サンプルを好んで、修正されていない偽陰性問題に取り組む。
2つの合成データセットと3つの実世界のデータセットの実証結果は、我々の負サンプリング法の堅牢性と優位性を示している。
論文 参考訳(メタデータ) (2020-09-07T19:08:26Z) - NPCFace: Negative-Positive Collaborative Training for Large-scale Face
Recognition [78.21084529159577]
我々は、トレーニングを改善するために、ハードサンプルのより良い利用方法を研究する。
強正と強負の相関は見過ごされ、正と負のロジットのマージンの関係も見過ごされる。
我々はNPCFaceと呼ばれる新規な負の正の協調的損失を提案し、これは負のハードケースと正のハードケースの両方のトレーニングを強調している。
論文 参考訳(メタデータ) (2020-07-20T14:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。