論文の概要: MAFA: Managing False Negatives for Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2312.06112v2
- Date: Thu, 13 Jun 2024 00:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-15 00:06:54.674947
- Title: MAFA: Managing False Negatives for Vision-Language Pre-training
- Title(参考訳): MAFA:ビジョンランゲージ事前トレーニングのための偽ネガティクス管理
- Authors: Jaeseok Byun, Dohoon Kim, Taesup Moon,
- Abstract要約: 視覚言語前訓練における偽陰性の重要な問題について考察する。
偽陰性の存在は、最適なパフォーマンスを達成するのを妨げ、パフォーマンスの低下を招きかねない。
我々は最近開発されたGRouped mIni-batch サンプリング (GRIT) 戦略に基づいて構築された2つの主成分からなるMAFA(managing FAlse negatives)を提案する。
- 参考スコア(独自算出の注目度): 17.836155361629718
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider a critical issue of false negatives in Vision-Language Pre-training (VLP), a challenge that arises from the inherent many-to-many correspondence of image-text pairs in large-scale web-crawled datasets. The presence of false negatives can impede achieving optimal performance and even lead to a significant performance drop. To address this challenge, we propose MAFA (MAnaging FAlse negatives), which consists of two pivotal components building upon the recently developed GRouped mIni-baTch sampling (GRIT) strategy: 1) an efficient connection mining process that identifies and converts false negatives into positives, and 2) label smoothing for the image-text contrastive (ITC) loss. Our comprehensive experiments verify the effectiveness of MAFA across multiple downstream tasks, emphasizing the crucial role of addressing false negatives in VLP, potentially even surpassing the importance of addressing false positives. In addition, the compatibility of MAFA with the recent BLIP-family model is also demonstrated. Code is available at https://github.com/jaeseokbyun/MAFA.
- Abstract(参考訳): 我々は、大規模なWebクローリングデータセットにおける画像テキストペアの多対多対応から生じる課題であるVLP(Vision-Language Pre-training)における偽陰性の重要な問題について考察する。
偽陰性の存在は、最適なパフォーマンスを達成するのを妨げ、パフォーマンスの低下を招きかねない。
この課題に対処するために、最近開発されたGRouped mIni-batch サンプリング(GRIT)戦略に基づいて構築された2つの重要なコンポーネントからなるMAFA(MAnaging FAlse negatives)を提案する。
1)偽陰性を正に識別し、変換する効率的な接続マイニングプロセス
2) 画像テキストコントラッシブ(ITC)損失に対するラベルスムース化。
複数の下流タスクにおけるMAFAの有効性を総合的に検証し,VLPにおける偽陰性に対処する重要な役割を強調した。
また,最近のBLIPファミリーモデルとMAFAの互換性を示す。
コードはhttps://github.com/jaeseokbyun/MAFA.comで入手できる。
関連論文リスト
- AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - Enhancing Multimodal Compositional Reasoning of Visual Language Models
with Generative Negative Mining [58.379339799777064]
大規模視覚言語モデル(VLM)は、強力な表現能力を示し、画像およびテキスト理解タスクを強化するためにユビキタスである。
両方向のマイニングだけでなく,両方向の否定的なサンプルを生成するフレームワークを提案する。
私たちのコードとデータセットはhttps://ugorsahin.github.io/enhancing-multimodal-compositional-reasoning-of-vlm.htmlで公開されています。
論文 参考訳(メタデータ) (2023-11-07T13:05:47Z) - Your Negative May not Be True Negative: Boosting Image-Text Matching
with False Negative Elimination [62.18768931714238]
提案手法は, サンプリングによる新規な偽陰性除去 (FNE) 戦略である。
その結果,提案した偽陰性除去戦略の優位性が示された。
論文 参考訳(メタデータ) (2023-08-08T16:31:43Z) - Improved Probabilistic Image-Text Representations [20.00929281001257]
基本的な視覚言語(VL)タスクである画像テキストマッチング(ITM)タスクは、多重性や不完全なアノテーションから生じる固有の曖昧さに悩まされている。
本稿では,PCME++(PCME++)を改良した確率的クロスモーダル埋め込みを提案する。
PCME++のロバスト性は、ノイズの多い画像-テキスト対応でも評価される。
論文 参考訳(メタデータ) (2023-05-29T16:02:09Z) - Exploiting Pseudo Image Captions for Multimodal Summarization [26.033681302592207]
視覚言語におけるクロスモーダルなコントラスト学習は、(一部)偽陰性の挑戦に直面している。
画像/テキストアンカーとその負のテキスト/画像間のMIをより正確に最適化する。
論文 参考訳(メタデータ) (2023-05-09T14:47:25Z) - Language Model Pre-training on True Negatives [109.73819321246062]
差別的事前訓練言語モデル(PLM)は、故意に破損した言語から原文を予測することを学ぶ。
既存のPLMは、すべての破損したテキストを検査せずに同等に否定的に扱う。
我々は、偽陰性予測に対処し、真陰性に関する事前学習言語モデルを促進するために、強化された事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-12-01T12:24:19Z) - GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language
Pre-training [47.95914618851596]
プレトレーニング中の2つの通常適用ステップがプレトレーニングモデルの性能に決定的な影響を及ぼすことを示す。
そこで本研究では,IMM 用ハードネガティブサンプルのより効果的なマイニングのために,ミニバッチを適応的にサンプリングする,新しいビジョンと言語事前学習手法を提案する。
提案手法は,様々な下流タスクにおいて,計算コストをはるかに削減して,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2022-08-08T11:15:45Z) - Relation-aware Graph Attention Model With Adaptive Self-adversarial
Training [29.240686573485718]
本稿では,不均一なマルチリレーショナルグラフにおける関係予測タスクのエンドツーエンドソリューションについて述べる。
特にパイプライン内の2つのビルディングブロック、すなわちヘテロジニアスグラフ表現学習と負のサンプリングに対処する。
パラメータフリーな負のサンプリング手法であるadaptive self-adversarial (asa) 負のサンプリングを導入する。
論文 参考訳(メタデータ) (2021-02-14T16:11:56Z) - Towards Overcoming False Positives in Visual Relationship Detection [95.15011997876606]
視覚的関係検出(VRD)における偽陽性率の高い原因について検討する。
本稿では,偽陽性の影響を軽減する堅牢なVRDフレームワークとして,Spatially-Aware Balanced negative pRoposal sAmpling(SABRA)を提案する。
論文 参考訳(メタデータ) (2020-12-23T06:28:00Z) - Simplify and Robustify Negative Sampling for Implicit Collaborative
Filtering [42.832851785261894]
本稿では,まず,モデル学習において潜在的に重要な事例が少数存在することを実証的に観察し,ネガティブな事例を新たに理解する。
次に、メモリに格納された高分散サンプルを好んで、修正されていない偽陰性問題に取り組む。
2つの合成データセットと3つの実世界のデータセットの実証結果は、我々の負サンプリング法の堅牢性と優位性を示している。
論文 参考訳(メタデータ) (2020-09-07T19:08:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。