論文の概要: FALCON: False-Negative Aware Learning of Contrastive Negatives in Vision-Language Pretraining
- arxiv url: http://arxiv.org/abs/2505.11192v2
- Date: Mon, 19 May 2025 01:33:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 12:45:56.193664
- Title: FALCON: False-Negative Aware Learning of Contrastive Negatives in Vision-Language Pretraining
- Title(参考訳): FALCON:視覚・言語事前学習における対照的否定の偽否定的学習
- Authors: Myunsoo Kim, Seong-Woong Shim, Byung-Jun Lee,
- Abstract要約: 我々は、ハードと偽の負のトレードオフのバランスをとる学習ベースのミニバッチ構築戦略であるFALCONを提案する。
FALCONは、ミニバッチ構築中に各アンカーインスタンスの適切な硬さの負のサンプルを動的に選択する負のマイニングスケジューラを使用している。
- 参考スコア(独自算出の注目度): 5.200545764106177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: False negatives pose a critical challenge in vision-language pretraining (VLP) due to the many-to-many correspondence between images and texts in large-scale datasets. These false negatives introduce conflicting supervision signals that degrade the learned embedding space and diminish the effectiveness of hard negative sampling. In this paper, we propose FALCON (False-negative Aware Learning of COntrastive Negatives), a learning-based mini-batch construction strategy that adaptively balances the trade-off between hard and false negatives during VLP. Rather than relying on fixed heuristics, FALCON employs a negative mining scheduler that dynamically selects negative samples of appropriate hardness for each anchor instance during mini-batch construction, guided by a proxy for cross-modal alignment improvement. Experimental results demonstrate that FALCON significantly improves performance across two widely adopted VLP frameworks (ALBEF, BLIP-2) and a broad range of downstream tasks and evaluation settings, underscoring its effectiveness and robustness in mitigating the impact of false negatives.
- Abstract(参考訳): 偽陰性は、大規模なデータセットにおける画像とテキストの多対多の対応のため、視覚言語事前学習(VLP)において重要な課題となる。
これらの偽陰性は、学習された埋め込み空間を劣化させ、ハードネガティブサンプリングの有効性を低下させる競合する監視信号をもたらす。
本稿では,FALCON(False- negative Aware Learning of Contrastive Negatives)を提案する。
固定ヒューリスティックスに頼るのではなく、FALCONは負のマイニングスケジューラを使用して、ミニバッチ構築中に各アンカーインスタンスに適切な硬さの負のサンプルを動的に選択し、クロスモーダルアライメント改善のためのプロキシによってガイドする。
実験により、FALCONは広く採用されている2つのVLPフレームワーク(ALBEF, BLIP-2)と広範囲の下流タスクおよび評価設定のパフォーマンスを著しく改善し、偽陰性の影響を緩和する効果と堅牢性を実証した。
関連論文リスト
- One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models [46.64419395105025]
クロスモーダル条件 (C-PGC) を備えたコントラスト学習型摂動発電機を提案する。
C-PGCは、効果的なガイダンスとして、一方的な情報と横断的な情報の両方を取り入れている。
実験の結果、C-PGCは敵のサンプルを元の領域から遠ざけることに成功した。
論文 参考訳(メタデータ) (2024-06-08T15:01:54Z) - MAFA: Managing False Negatives for Vision-Language Pre-training [17.836155361629718]
視覚言語前訓練における偽陰性の重要な問題について考察する。
偽陰性の存在は、最適なパフォーマンスを達成するのを妨げ、パフォーマンスの低下を招きかねない。
我々は最近開発されたGRouped mIni-batch サンプリング (GRIT) 戦略に基づいて構築された2つの主成分からなるMAFA(managing FAlse negatives)を提案する。
論文 参考訳(メタデータ) (2023-12-11T04:33:35Z) - Language Model Pre-training on True Negatives [109.73819321246062]
差別的事前訓練言語モデル(PLM)は、故意に破損した言語から原文を予測することを学ぶ。
既存のPLMは、すべての破損したテキストを検査せずに同等に否定的に扱う。
我々は、偽陰性予測に対処し、真陰性に関する事前学習言語モデルを促進するために、強化された事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-12-01T12:24:19Z) - A Practical Contrastive Learning Framework for Single-Image
Super-Resolution [51.422185656787285]
コントラスト学習に基づく単一画像の超解像を2つの視点から検討する。
SISR のための実践的コントラスト学習フレームワーク PCL-SR を提案する。
既存のベンチマーク手法と比較して,提案手法をPCL-SRフレームワークで再学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-27T15:42:12Z) - Incremental False Negative Detection for Contrastive Learning [95.68120675114878]
本稿では,自己指導型コントラスト学習のための新たな偽陰性検出手法を提案する。
対照的な学習では、検出された偽陰性を明示的に除去する2つの戦略について議論する。
提案手法は,制限された計算内での複数のベンチマークにおいて,他の自己教師付きコントラスト学習フレームワークよりも優れる。
論文 参考訳(メタデータ) (2021-06-07T15:29:14Z) - Contrastive Attraction and Contrastive Repulsion for Representation
Learning [131.72147978462348]
コントラスト学習(CL)法は,複数の負のサンプルに対して,エンコーダが各正のサンプルと対比する自己超越的な方法でデータ表現を学習する。
最近のCL法は、ImageNetのような大規模データセットで事前訓練された場合、有望な結果を得た。
自己グループ内の正と負のサンプルを別々に比較し、正と負の群を対比して進行する2つのCL戦略を提案する。
論文 参考訳(メタデータ) (2021-05-08T17:25:08Z) - Towards Overcoming False Positives in Visual Relationship Detection [95.15011997876606]
視覚的関係検出(VRD)における偽陽性率の高い原因について検討する。
本稿では,偽陽性の影響を軽減する堅牢なVRDフレームワークとして,Spatially-Aware Balanced negative pRoposal sAmpling(SABRA)を提案する。
論文 参考訳(メタデータ) (2020-12-23T06:28:00Z) - NPCFace: Negative-Positive Collaborative Training for Large-scale Face
Recognition [78.21084529159577]
我々は、トレーニングを改善するために、ハードサンプルのより良い利用方法を研究する。
強正と強負の相関は見過ごされ、正と負のロジットのマージンの関係も見過ごされる。
我々はNPCFaceと呼ばれる新規な負の正の協調的損失を提案し、これは負のハードケースと正のハードケースの両方のトレーニングを強調している。
論文 参考訳(メタデータ) (2020-07-20T14:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。