論文の概要: Converting and Smoothing False Negatives for Vision-Language
Pre-training
- arxiv url: http://arxiv.org/abs/2312.06112v1
- Date: Mon, 11 Dec 2023 04:33:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 17:07:12.372030
- Title: Converting and Smoothing False Negatives for Vision-Language
Pre-training
- Title(参考訳): ビジョンランゲージ事前学習のための変換と平滑化
- Authors: Jaeseok Byun, Dohoon Kim, and Taesup Moon
- Abstract要約: 偽陰性問題を管理するCOSMO(Converting and SMOoothing false negatives)という手法を提案する。
最近開発されたGRouped mIni-baTch サンプリング (GRIT) 戦略に基づいて,本手法は2つの主成分から構成される。
- 参考スコア(独自算出の注目度): 17.836155361629718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the critical issue of false negatives in Vision-Language
Pre-training (VLP), a challenge that arises from the inherent many-to-many
correspondence of image-text pairs in large-scale web-crawled datasets. The
presence of false negatives can impede achieving optimal performance and even
lead to learning failures. To address this challenge, we propose a method
called COSMO (COnverting and SMOoothing false negatives) that manages the false
negative issues, especially powerful in hard negative sampling. Building upon
the recently developed GRouped mIni-baTch sampling (GRIT) strategy, our
approach consists of two pivotal components: 1) an efficient connection mining
process that identifies and converts false negatives into positives, and 2)
label smoothing for the image-text contrastive loss (ITC). Our comprehensive
experiments verify the effectiveness of COSMO across multiple downstream tasks,
emphasizing the crucial role of addressing false negatives in VLP, potentially
even surpassing the importance of addressing false positives. In addition, the
compatibility of COSMO with the recent BLIP-family model is also demonstrated.
- Abstract(参考訳): 本稿では、大規模ウェブクローリングデータセットにおける画像テキストペアの多対多対応から生じる課題であるVLP(Vision-Language Pre-training)における偽陰性の問題について考察する。
偽陰性の存在は、最適なパフォーマンスを達成するのを妨げ、さらには失敗を学ぶことにつながる。
そこで本研究では,偽陰性問題を管理するcosmo (converting and smooothing false negatives) という手法を提案する。
GRouped mIni-baTch サンプリング (GRIT) 戦略に基づいて,本手法は2つの重要な要素から構成される。
1)偽陰性を正に識別し、変換する効率的な接続マイニングプロセス
2) 画像テキストコントラスト損失(ITC)のラベルスムース化。
総合的な実験により,複数の下流タスクにおけるcosmosの有効性が検証され,vlpにおける偽陰性に対処する重要な役割が強調された。
さらに,最近のblip-familyモデルとのcosmoの互換性も実証された。
関連論文リスト
- Dissecting Misalignment of Multimodal Large Language Models via Influence Function [12.832792175138241]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。
ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。
ECIFを基盤として,MLLMにおけるデータ評価,誤アライメント検出,誤予測トレースバックタスクなどの一連のアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-18T15:45:41Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - Enhancing Multimodal Compositional Reasoning of Visual Language Models
with Generative Negative Mining [58.379339799777064]
大規模視覚言語モデル(VLM)は、強力な表現能力を示し、画像およびテキスト理解タスクを強化するためにユビキタスである。
両方向のマイニングだけでなく,両方向の否定的なサンプルを生成するフレームワークを提案する。
私たちのコードとデータセットはhttps://ugorsahin.github.io/enhancing-multimodal-compositional-reasoning-of-vlm.htmlで公開されています。
論文 参考訳(メタデータ) (2023-11-07T13:05:47Z) - Your Negative May not Be True Negative: Boosting Image-Text Matching
with False Negative Elimination [62.18768931714238]
提案手法は, サンプリングによる新規な偽陰性除去 (FNE) 戦略である。
その結果,提案した偽陰性除去戦略の優位性が示された。
論文 参考訳(メタデータ) (2023-08-08T16:31:43Z) - Improved Probabilistic Image-Text Representations [20.00929281001257]
基本的な視覚言語(VL)タスクである画像テキストマッチング(ITM)タスクは、多重性や不完全なアノテーションから生じる固有の曖昧さに悩まされている。
本稿では,PCME++(PCME++)を改良した確率的クロスモーダル埋め込みを提案する。
PCME++のロバスト性は、ノイズの多い画像-テキスト対応でも評価される。
論文 参考訳(メタデータ) (2023-05-29T16:02:09Z) - Language Model Pre-training on True Negatives [109.73819321246062]
差別的事前訓練言語モデル(PLM)は、故意に破損した言語から原文を予測することを学ぶ。
既存のPLMは、すべての破損したテキストを検査せずに同等に否定的に扱う。
我々は、偽陰性予測に対処し、真陰性に関する事前学習言語モデルを促進するために、強化された事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-12-01T12:24:19Z) - GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language
Pre-training [47.95914618851596]
プレトレーニング中の2つの通常適用ステップがプレトレーニングモデルの性能に決定的な影響を及ぼすことを示す。
そこで本研究では,IMM 用ハードネガティブサンプルのより効果的なマイニングのために,ミニバッチを適応的にサンプリングする,新しいビジョンと言語事前学習手法を提案する。
提案手法は,様々な下流タスクにおいて,計算コストをはるかに削減して,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2022-08-08T11:15:45Z) - Relation-aware Graph Attention Model With Adaptive Self-adversarial
Training [29.240686573485718]
本稿では,不均一なマルチリレーショナルグラフにおける関係予測タスクのエンドツーエンドソリューションについて述べる。
特にパイプライン内の2つのビルディングブロック、すなわちヘテロジニアスグラフ表現学習と負のサンプリングに対処する。
パラメータフリーな負のサンプリング手法であるadaptive self-adversarial (asa) 負のサンプリングを導入する。
論文 参考訳(メタデータ) (2021-02-14T16:11:56Z) - Towards Overcoming False Positives in Visual Relationship Detection [95.15011997876606]
視覚的関係検出(VRD)における偽陽性率の高い原因について検討する。
本稿では,偽陽性の影響を軽減する堅牢なVRDフレームワークとして,Spatially-Aware Balanced negative pRoposal sAmpling(SABRA)を提案する。
論文 参考訳(メタデータ) (2020-12-23T06:28:00Z) - Simplify and Robustify Negative Sampling for Implicit Collaborative
Filtering [42.832851785261894]
本稿では,まず,モデル学習において潜在的に重要な事例が少数存在することを実証的に観察し,ネガティブな事例を新たに理解する。
次に、メモリに格納された高分散サンプルを好んで、修正されていない偽陰性問題に取り組む。
2つの合成データセットと3つの実世界のデータセットの実証結果は、我々の負サンプリング法の堅牢性と優位性を示している。
論文 参考訳(メタデータ) (2020-09-07T19:08:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。