Fugu-MT 論文翻訳(概要): MAFA: Managing False Negatives for Vision-Language Pre-training

論文の概要: MAFA: Managing False Negatives for Vision-Language Pre-training

arxiv url: http://arxiv.org/abs/2312.06112v2
Date: Thu, 13 Jun 2024 00:36:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-15 00:06:54.674947
Title: MAFA: Managing False Negatives for Vision-Language Pre-training
Title（参考訳）: MAFA:ビジョンランゲージ事前トレーニングのための偽ネガティクス管理
Authors: Jaeseok Byun, Dohoon Kim, Taesup Moon,
Abstract要約: 視覚言語前訓練における偽陰性の重要な問題について考察する。偽陰性の存在は、最適なパフォーマンスを達成するのを妨げ、パフォーマンスの低下を招きかねない。我々は最近開発されたGRouped mIni-batch サンプリング (GRIT) 戦略に基づいて構築された2つの主成分からなるMAFA(managing FAlse negatives)を提案する。
参考スコア（独自算出の注目度）: 17.836155361629718
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We consider a critical issue of false negatives in Vision-Language Pre-training (VLP), a challenge that arises from the inherent many-to-many correspondence of image-text pairs in large-scale web-crawled datasets. The presence of false negatives can impede achieving optimal performance and even lead to a significant performance drop. To address this challenge, we propose MAFA (MAnaging FAlse negatives), which consists of two pivotal components building upon the recently developed GRouped mIni-baTch sampling (GRIT) strategy: 1) an efficient connection mining process that identifies and converts false negatives into positives, and 2) label smoothing for the image-text contrastive (ITC) loss. Our comprehensive experiments verify the effectiveness of MAFA across multiple downstream tasks, emphasizing the crucial role of addressing false negatives in VLP, potentially even surpassing the importance of addressing false positives. In addition, the compatibility of MAFA with the recent BLIP-family model is also demonstrated. Code is available at https://github.com/jaeseokbyun/MAFA.
Abstract（参考訳）: 我々は、大規模なWebクローリングデータセットにおける画像テキストペアの多対多対応から生じる課題であるVLP(Vision-Language Pre-training)における偽陰性の重要な問題について考察する。偽陰性の存在は、最適なパフォーマンスを達成するのを妨げ、パフォーマンスの低下を招きかねない。この課題に対処するために、最近開発されたGRouped mIni-batch サンプリング(GRIT)戦略に基づいて構築された2つの重要なコンポーネントからなるMAFA(MAnaging FAlse negatives)を提案する。 1)偽陰性を正に識別し、変換する効率的な接続マイニングプロセス 2) 画像テキストコントラッシブ(ITC)損失に対するラベルスムース化。複数の下流タスクにおけるMAFAの有効性を総合的に検証し,VLPにおける偽陰性に対処する重要な役割を強調した。また,最近のBLIPファミリーモデルとMAFAの互換性を示す。コードはhttps://github.com/jaeseokbyun/MAFA.comで入手できる。

関連論文リスト

From Generator to Embedder: Harnessing Innate Abilities of Multimodal LLMs via Building Zero-Shot Discriminative Embedding Model [29.879983760203256]
MLLM(Multimodal Large Language Models)は、汎用的な埋め込みタスクのための有望なソリューションとして登場した。しかし、その生成的性質を差別的表現学習に適用することは、依然として重要な課題である。本稿では,2つの相乗的成分を中心としてギャップを埋める,普遍的マルチモーダル埋め込みのための効率的なフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-01T07:31:24Z)
Visual Perturbation and Adaptive Hard Negative Contrastive Learning for Compositional Reasoning in Vision-Language Models [9.682523487279976]
視覚言語モデル(VLM)はマルチモーダルタスク、特に構成推論(CR)タスクに必須である。既存の手法は主にテキストベースのハードネガティブサンプルを生成することによってモデルを微調整する。 AHNPLはテキストベースのハードネガティブを視覚領域に翻訳し、モデルをトレーニングするために意味的に乱された画像ベースのネガティブを生成する。
論文参考訳（メタデータ） (2025-05-21T14:28:43Z)
FALCON: False-Negative Aware Learning of Contrastive Negatives in Vision-Language Pretraining [5.200545764106177]
我々は、ハードと偽の負のトレードオフのバランスをとる学習ベースのミニバッチ構築戦略であるFALCONを提案する。 FALCONは、ミニバッチ構築中に各アンカーインスタンスの適切な硬さの負のサンプルを動的に選択する負のマイニングスケジューラを使用している。
論文参考訳（メタデータ） (2025-05-16T12:50:05Z)
Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation [65.92001420372007]
本稿では,様々なベンチマークにおいて最先端MLLMを体系的に評価する。本稿では,MLLMの脆弱性を否定的議論に対して評価するために設計された,最初のベンチマークであるGaslightingBenchを紹介する。
論文参考訳（メタデータ） (2025-01-31T10:37:48Z)
Dissecting Misalignment of Multimodal Large Language Models via Influence Function [12.832792175138241]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。 ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。 ECIFを基盤として,MLLMにおけるデータ評価,誤アライメント検出,誤予測トレースバックタスクなどの一連のアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-11-18T15:45:41Z)
AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文参考訳（メタデータ） (2023-11-16T02:56:29Z)
Enhancing Multimodal Compositional Reasoning of Visual Language Models with Generative Negative Mining [58.379339799777064]
大規模視覚言語モデル(VLM)は、強力な表現能力を示し、画像およびテキスト理解タスクを強化するためにユビキタスである。両方向のマイニングだけでなく,両方向の否定的なサンプルを生成するフレームワークを提案する。私たちのコードとデータセットはhttps://ugorsahin.github.io/enhancing-multimodal-compositional-reasoning-of-vlm.htmlで公開されています。
論文参考訳（メタデータ） (2023-11-07T13:05:47Z)
Your Negative May not Be True Negative: Boosting Image-Text Matching with False Negative Elimination [62.18768931714238]
提案手法は, サンプリングによる新規な偽陰性除去 (FNE) 戦略である。その結果,提案した偽陰性除去戦略の優位性が示された。
論文参考訳（メタデータ） (2023-08-08T16:31:43Z)
Improved Probabilistic Image-Text Representations [20.00929281001257]
基本的な視覚言語(VL)タスクである画像テキストマッチング(ITM)タスクは、多重性や不完全なアノテーションから生じる固有の曖昧さに悩まされている。本稿では,PCME++(PCME++)を改良した確率的クロスモーダル埋め込みを提案する。 PCME++のロバスト性は、ノイズの多い画像-テキスト対応でも評価される。
論文参考訳（メタデータ） (2023-05-29T16:02:09Z)
Exploiting Pseudo Image Captions for Multimodal Summarization [26.033681302592207]
視覚言語におけるクロスモーダルなコントラスト学習は、(一部)偽陰性の挑戦に直面している。画像/テキストアンカーとその負のテキスト/画像間のMIをより正確に最適化する。
論文参考訳（メタデータ） (2023-05-09T14:47:25Z)
Language Model Pre-training on True Negatives [109.73819321246062]
差別的事前訓練言語モデル(PLM)は、故意に破損した言語から原文を予測することを学ぶ。既存のPLMは、すべての破損したテキストを検査せずに同等に否定的に扱う。我々は、偽陰性予測に対処し、真陰性に関する事前学習言語モデルを促進するために、強化された事前学習手法を設計する。
論文参考訳（メタデータ） (2022-12-01T12:24:19Z)
GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language Pre-training [47.95914618851596]
プレトレーニング中の2つの通常適用ステップがプレトレーニングモデルの性能に決定的な影響を及ぼすことを示す。そこで本研究では,IMM 用ハードネガティブサンプルのより効果的なマイニングのために,ミニバッチを適応的にサンプリングする,新しいビジョンと言語事前学習手法を提案する。提案手法は,様々な下流タスクにおいて,計算コストをはるかに削減して,新しい最先端性能を実現する。
論文参考訳（メタデータ） (2022-08-08T11:15:45Z)
Relation-aware Graph Attention Model With Adaptive Self-adversarial Training [29.240686573485718]
本稿では,不均一なマルチリレーショナルグラフにおける関係予測タスクのエンドツーエンドソリューションについて述べる。特にパイプライン内の2つのビルディングブロック、すなわちヘテロジニアスグラフ表現学習と負のサンプリングに対処する。パラメータフリーな負のサンプリング手法であるadaptive self-adversarial (asa) 負のサンプリングを導入する。
論文参考訳（メタデータ） (2021-02-14T16:11:56Z)
Towards Overcoming False Positives in Visual Relationship Detection [95.15011997876606]
視覚的関係検出(VRD)における偽陽性率の高い原因について検討する。本稿では,偽陽性の影響を軽減する堅牢なVRDフレームワークとして,Spatially-Aware Balanced negative pRoposal sAmpling(SABRA)を提案する。
論文参考訳（メタデータ） (2020-12-23T06:28:00Z)
Simplify and Robustify Negative Sampling for Implicit Collaborative Filtering [42.832851785261894]
本稿では,まず,モデル学習において潜在的に重要な事例が少数存在することを実証的に観察し,ネガティブな事例を新たに理解する。次に、メモリに格納された高分散サンプルを好んで、修正されていない偽陰性問題に取り組む。 2つの合成データセットと3つの実世界のデータセットの実証結果は、我々の負サンプリング法の堅牢性と優位性を示している。
論文参考訳（メタデータ） (2020-09-07T19:08:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。