Fugu-MT 論文翻訳(概要): Converting and Smoothing False Negatives for Vision-Language Pre-training

論文の概要: Converting and Smoothing False Negatives for Vision-Language Pre-training

arxiv url: http://arxiv.org/abs/2312.06112v1
Date: Mon, 11 Dec 2023 04:33:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 17:07:12.372030
Title: Converting and Smoothing False Negatives for Vision-Language Pre-training
Title（参考訳）: ビジョンランゲージ事前学習のための変換と平滑化
Authors: Jaeseok Byun, Dohoon Kim, and Taesup Moon
Abstract要約: 偽陰性問題を管理するCOSMO(Converting and SMOoothing false negatives)という手法を提案する。最近開発されたGRouped mIni-baTch サンプリング (GRIT) 戦略に基づいて,本手法は2つの主成分から構成される。
参考スコア（独自算出の注目度）: 17.836155361629718
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We consider the critical issue of false negatives in Vision-Language Pre-training (VLP), a challenge that arises from the inherent many-to-many correspondence of image-text pairs in large-scale web-crawled datasets. The presence of false negatives can impede achieving optimal performance and even lead to learning failures. To address this challenge, we propose a method called COSMO (COnverting and SMOoothing false negatives) that manages the false negative issues, especially powerful in hard negative sampling. Building upon the recently developed GRouped mIni-baTch sampling (GRIT) strategy, our approach consists of two pivotal components: 1) an efficient connection mining process that identifies and converts false negatives into positives, and 2) label smoothing for the image-text contrastive loss (ITC). Our comprehensive experiments verify the effectiveness of COSMO across multiple downstream tasks, emphasizing the crucial role of addressing false negatives in VLP, potentially even surpassing the importance of addressing false positives. In addition, the compatibility of COSMO with the recent BLIP-family model is also demonstrated.
Abstract（参考訳）: 本稿では、大規模ウェブクローリングデータセットにおける画像テキストペアの多対多対応から生じる課題であるVLP(Vision-Language Pre-training)における偽陰性の問題について考察する。偽陰性の存在は、最適なパフォーマンスを達成するのを妨げ、さらには失敗を学ぶことにつながる。そこで本研究では,偽陰性問題を管理するcosmo (converting and smooothing false negatives) という手法を提案する。 GRouped mIni-baTch サンプリング (GRIT) 戦略に基づいて,本手法は2つの重要な要素から構成される。 1)偽陰性を正に識別し、変換する効率的な接続マイニングプロセス 2) 画像テキストコントラスト損失(ITC)のラベルスムース化。総合的な実験により,複数の下流タスクにおけるcosmosの有効性が検証され,vlpにおける偽陰性に対処する重要な役割が強調された。さらに,最近のblip-familyモデルとのcosmoの互換性も実証された。

関連論文リスト

From Generator to Embedder: Harnessing Innate Abilities of Multimodal LLMs via Building Zero-Shot Discriminative Embedding Model [29.879983760203256]
MLLM(Multimodal Large Language Models)は、汎用的な埋め込みタスクのための有望なソリューションとして登場した。しかし、その生成的性質を差別的表現学習に適用することは、依然として重要な課題である。本稿では,2つの相乗的成分を中心としてギャップを埋める,普遍的マルチモーダル埋め込みのための効率的なフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-01T07:31:24Z)
Visual Perturbation and Adaptive Hard Negative Contrastive Learning for Compositional Reasoning in Vision-Language Models [9.682523487279976]
視覚言語モデル(VLM)はマルチモーダルタスク、特に構成推論(CR)タスクに必須である。既存の手法は主にテキストベースのハードネガティブサンプルを生成することによってモデルを微調整する。 AHNPLはテキストベースのハードネガティブを視覚領域に翻訳し、モデルをトレーニングするために意味的に乱された画像ベースのネガティブを生成する。
論文参考訳（メタデータ） (2025-05-21T14:28:43Z)
FALCON: False-Negative Aware Learning of Contrastive Negatives in Vision-Language Pretraining [5.200545764106177]
我々は、ハードと偽の負のトレードオフのバランスをとる学習ベースのミニバッチ構築戦略であるFALCONを提案する。 FALCONは、ミニバッチ構築中に各アンカーインスタンスの適切な硬さの負のサンプルを動的に選択する負のマイニングスケジューラを使用している。
論文参考訳（メタデータ） (2025-05-16T12:50:05Z)
Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation [65.92001420372007]
本稿では,様々なベンチマークにおいて最先端MLLMを体系的に評価する。本稿では,MLLMの脆弱性を否定的議論に対して評価するために設計された,最初のベンチマークであるGaslightingBenchを紹介する。
論文参考訳（メタデータ） (2025-01-31T10:37:48Z)
Dissecting Misalignment of Multimodal Large Language Models via Influence Function [12.832792175138241]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。 ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。 ECIFを基盤として,MLLMにおけるデータ評価,誤アライメント検出,誤予測トレースバックタスクなどの一連のアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-11-18T15:45:41Z)
AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文参考訳（メタデータ） (2023-11-16T02:56:29Z)
Enhancing Multimodal Compositional Reasoning of Visual Language Models with Generative Negative Mining [58.379339799777064]
大規模視覚言語モデル(VLM)は、強力な表現能力を示し、画像およびテキスト理解タスクを強化するためにユビキタスである。両方向のマイニングだけでなく,両方向の否定的なサンプルを生成するフレームワークを提案する。私たちのコードとデータセットはhttps://ugorsahin.github.io/enhancing-multimodal-compositional-reasoning-of-vlm.htmlで公開されています。
論文参考訳（メタデータ） (2023-11-07T13:05:47Z)
Your Negative May not Be True Negative: Boosting Image-Text Matching with False Negative Elimination [62.18768931714238]
提案手法は, サンプリングによる新規な偽陰性除去 (FNE) 戦略である。その結果,提案した偽陰性除去戦略の優位性が示された。
論文参考訳（メタデータ） (2023-08-08T16:31:43Z)
Improved Probabilistic Image-Text Representations [20.00929281001257]
基本的な視覚言語(VL)タスクである画像テキストマッチング(ITM)タスクは、多重性や不完全なアノテーションから生じる固有の曖昧さに悩まされている。本稿では,PCME++(PCME++)を改良した確率的クロスモーダル埋め込みを提案する。 PCME++のロバスト性は、ノイズの多い画像-テキスト対応でも評価される。
論文参考訳（メタデータ） (2023-05-29T16:02:09Z)
Exploiting Pseudo Image Captions for Multimodal Summarization [26.033681302592207]
視覚言語におけるクロスモーダルなコントラスト学習は、(一部)偽陰性の挑戦に直面している。画像/テキストアンカーとその負のテキスト/画像間のMIをより正確に最適化する。
論文参考訳（メタデータ） (2023-05-09T14:47:25Z)
Language Model Pre-training on True Negatives [109.73819321246062]
差別的事前訓練言語モデル(PLM)は、故意に破損した言語から原文を予測することを学ぶ。既存のPLMは、すべての破損したテキストを検査せずに同等に否定的に扱う。我々は、偽陰性予測に対処し、真陰性に関する事前学習言語モデルを促進するために、強化された事前学習手法を設計する。
論文参考訳（メタデータ） (2022-12-01T12:24:19Z)
GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language Pre-training [47.95914618851596]
プレトレーニング中の2つの通常適用ステップがプレトレーニングモデルの性能に決定的な影響を及ぼすことを示す。そこで本研究では,IMM 用ハードネガティブサンプルのより効果的なマイニングのために,ミニバッチを適応的にサンプリングする,新しいビジョンと言語事前学習手法を提案する。提案手法は,様々な下流タスクにおいて,計算コストをはるかに削減して,新しい最先端性能を実現する。
論文参考訳（メタデータ） (2022-08-08T11:15:45Z)
Relation-aware Graph Attention Model With Adaptive Self-adversarial Training [29.240686573485718]
本稿では,不均一なマルチリレーショナルグラフにおける関係予測タスクのエンドツーエンドソリューションについて述べる。特にパイプライン内の2つのビルディングブロック、すなわちヘテロジニアスグラフ表現学習と負のサンプリングに対処する。パラメータフリーな負のサンプリング手法であるadaptive self-adversarial (asa) 負のサンプリングを導入する。
論文参考訳（メタデータ） (2021-02-14T16:11:56Z)
Towards Overcoming False Positives in Visual Relationship Detection [95.15011997876606]
視覚的関係検出(VRD)における偽陽性率の高い原因について検討する。本稿では,偽陽性の影響を軽減する堅牢なVRDフレームワークとして,Spatially-Aware Balanced negative pRoposal sAmpling(SABRA)を提案する。
論文参考訳（メタデータ） (2020-12-23T06:28:00Z)
Simplify and Robustify Negative Sampling for Implicit Collaborative Filtering [42.832851785261894]
本稿では,まず,モデル学習において潜在的に重要な事例が少数存在することを実証的に観察し,ネガティブな事例を新たに理解する。次に、メモリに格納された高分散サンプルを好んで、修正されていない偽陰性問題に取り組む。 2つの合成データセットと3つの実世界のデータセットの実証結果は、我々の負サンプリング法の堅牢性と優位性を示している。
論文参考訳（メタデータ） (2020-09-07T19:08:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。