論文の概要: FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models
- arxiv url: http://arxiv.org/abs/2405.10286v1
- Date: Thu, 16 May 2024 17:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 13:23:28.342954
- Title: FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models
- Title(参考訳): FFF:非常に強力なビジョン・ランゲージモデルにおけるFlawed Foundationsの対照的な事前学習結果の修正
- Authors: Adrian Bulat, Yassine Ouali, Georgios Tzimiropoulos,
- Abstract要約: このような問題に対処してトレーニングプロセスを改善する可能性については,まだ実現されていない。
具体的には、負のペアの誤割り当てと、低いキャプション品質と多様性の2つの問題を研究・分析する。
- 参考スコア(独自算出の注目度): 40.21228703978429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite noise and caption quality having been acknowledged as important factors impacting vision-language contrastive pre-training, in this paper, we show that the full potential of improving the training process by addressing such issues is yet to be realized. Specifically, we firstly study and analyze two issues affecting training: incorrect assignment of negative pairs, and low caption quality and diversity. Then, we devise effective solutions for addressing both problems, which essentially require training with multiple true positive pairs. Finally, we propose training with sigmoid loss to address such a requirement. We show very large gains over the current state-of-the-art for both image recognition ($\sim +6\%$ on average over 11 datasets) and image retrieval ($\sim +19\%$ on Flickr30k and $\sim +15\%$ on MSCOCO).
- Abstract(参考訳): 本稿では,視覚言語によるコントラスト事前学習に影響を及ぼす重要な要因として,ノイズやキャプションの品質が認識されているにもかかわらず,そのような問題に対処してトレーニングプロセスを改善する可能性について,まだ実現されていないことを示す。
具体的には、まず、負のペアの誤った割り当てと低いキャプション品質と多様性の2つの問題について研究・分析する。
そこで本研究では,複数の正のペアを持つトレーニングを必要とする,両問題に対処する効果的なソリューションを考案する。
最後に、このような要件に対処するために、シグモイドロスを用いたトレーニングを提案する。
画像認識の現在の状況(平均11データセットで$\sim + 6\%$)と画像検索(Flickr30kで$\sim + 19\%$、MSCOCOで$\sim + 15\%$)を大きく上回っている。
関連論文リスト
- MoTaDual: Modality-Task Dual Alignment for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Composed Image Retrieval (CIR) は、ターゲット画像の検索にバイモーダル(image+text)クエリを利用する、難しい視覚言語タスクである。
本稿では,両者の相違に対処するための2段階の枠組みを提案する。
MoTaDualは、トレーニング時間と計算コストを低く保ちながら、4つの広く使用されているZS-CIRベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-31T08:49:05Z) - FairQueue: Rethinking Prompt Learning for Fair Text-to-Image Generation [28.185503858652456]
テキスト・トゥ・イメージ(T2I)生成のための最先端技術(SOTA)として、即時学習が登場している。
そこで本研究では,この素早い学習に基づくアプローチによって,サンプルの品質が劣化することを明らかにする。
品質問題に対処するため, (i) Prompt Queuing と (ii) Attention Amplification の2つのアイデアを提案する。
論文 参考訳(メタデータ) (2024-10-24T10:16:09Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - M2DF: Multi-grained Multi-curriculum Denoising Framework for Multimodal
Aspect-based Sentiment Analysis [32.9772577419091]
マルチモーダルAspect-based Sentiment Analysis (MABSA) はきめ細かな感性分析タスクである。
トレーニングデータの順序を調整することで,マルチグラニュアルなマルチキュリキュラム・デノナイジング・フレームワーク(M2DF)を提案する。
当社のフレームワークは,MABSAの3つのサブタスクにおける最先端の作業よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-10-23T06:22:39Z) - UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T18:26:22Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Contrastive Object-level Pre-training with Spatial Noise Curriculum
Learning [12.697842097171119]
本稿では,生成した領域を適応的に拡張するカリキュラム学習機構を提案する。
実験の結果,マルチオブジェクトシーンイメージデータセットの事前学習において,MoCo v2のベースラインに対するアプローチは,複数のオブジェクトレベルタスクに対して大きなマージンで改善されていることがわかった。
論文 参考訳(メタデータ) (2021-11-26T18:29:57Z) - Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。
本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。
以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T21:01:00Z) - Contrastive Learning for Weakly Supervised Phrase Grounding [99.73968052506206]
単語領域の注目度を最適化することにより,句の接頭辞が学習可能であることを示す。
キーとなる考え方は、言語モデルに基づく単語置換を通して学習するための効果的な負のキャプションを構築することである。
COCO-Captionsでトレーニングされた弱い教師付きフレーズグラウンドモデルは、Flickr30Kベンチマークで76.7%の精度を達成するために、健全な5.7%の上昇を示している。
論文 参考訳(メタデータ) (2020-06-17T15:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。