論文の概要: Enhancing Conceptual Understanding in Multimodal Contrastive Learning through Hard Negative Samples
- arxiv url: http://arxiv.org/abs/2403.02875v2
- Date: Mon, 5 Aug 2024 14:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 23:26:29.696419
- Title: Enhancing Conceptual Understanding in Multimodal Contrastive Learning through Hard Negative Samples
- Title(参考訳): ハードネガティブサンプルによるマルチモーダルコントラスト学習における概念理解の促進
- Authors: Philipp J. Rösch, Norbert Oswald, Michaela Geierhos, Jindřich Libovický,
- Abstract要約: 本稿では,合成ハードネガティブテキストを取り入れた新しい事前学習手法を提案する。
硬い負の項は視覚的概念に対応し、よりきめ細かい視覚的概念とテキスト的概念のアライメントをもたらす。
InpaintCOCOは、視覚言語モデルにおける色、オブジェクト、サイズをきめ細かいアライメントを評価するための新しいデータセットである。
- 参考スコア(独自算出の注目度): 0.6249768559720122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current multimodal models leveraging contrastive learning often face limitations in developing fine-grained conceptual understanding. This is due to random negative samples during pretraining, causing almost exclusively very dissimilar concepts to be compared in the loss function. Consequently, the models struggle with fine-grained semantic differences. To address this problem, we introduce a novel pretraining method incorporating synthetic hard negative text examples. The hard negatives permute terms corresponding to visual concepts, leading to a more fine-grained visual and textual concept alignment. Further, we introduce InpaintCOCO, a new challenging dataset for assessing the fine-grained alignment of colors, objects, and sizes in vision-language models. We created the dataset using generative inpainting from COCO images by changing the visual concepts so that the images no longer match their original captions. Our results show significant improvements in fine-grained concept understanding across a wide range of vision-language datasets, including our InpaintCOCO dataset.
- Abstract(参考訳): 対照的な学習を活用する現在のマルチモーダルモデルは、しばしば微細な概念的理解を開発する際に限界に直面している。
これは事前学習中のランダムな負のサンプルのためであり、損失関数においてほとんど全く異なる概念が比較される。
その結果、モデルは細粒度のセマンティックな違いに悩まされる。
この問題に対処するために,合成ハードネガティブテキストを取り入れた新しい事前学習手法を提案する。
硬い負の項は視覚的概念に対応し、よりきめ細かい視覚的概念とテキスト的概念のアライメントをもたらす。
さらに、視覚言語モデルにおける色、オブジェクト、サイズをきめ細かなアライメントを評価するための、新しい挑戦的データセットであるInpaintCOCOを紹介します。
画像が元のキャプションと一致しないように、視覚概念を変更してCOCO画像から生成的インペイントを用いてデータセットを作成しました。
InpaintCOCOデータセットを含む、広範囲の視覚言語データセットにおける詳細な概念理解の大幅な改善が得られた。
関連論文リスト
- Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。
既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。
本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文 参考訳(メタデータ) (2024-05-11T05:01:53Z) - Continual Contrastive Spoken Language Understanding [33.09005399967931]
COCONUTは、経験リプレイとコントラスト学習の組み合わせに依存するクラスインクリメンタルラーニング(CIL)手法である。
我々は,COCONUTをデコーダ側で動作するメソッドと組み合わせることで,さらなるメトリクス改善を実現することを示す。
論文 参考訳(メタデータ) (2023-10-04T10:09:12Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Contrastive Learning of Visual-Semantic Embeddings [4.7464518249313805]
本稿では,正規化されたクロスエントロピーに基づく2つの損失関数を提案する。
本研究は,画像・テキスト・テキスト・画像検索タスクにおける既存のビジュアル・セマンティックな埋め込み手法と比較する。
論文 参考訳(メタデータ) (2021-10-17T17:28:04Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Co-Grounding Networks with Semantic Attention for Referring Expression
Comprehension in Videos [96.85840365678649]
エレガントなワンステージの枠組みで動画の表現理解を参照する問題に取り組みます。
意味的注意学習により単フレーム接地精度を高め、クロスフレーム接地一貫性を向上させます。
私たちのモデルは、RefCOCOデータセットのパフォーマンス改善によって示される、画像の表現理解の参照にも適用できます。
論文 参考訳(メタデータ) (2021-03-23T06:42:49Z) - On Mutual Information in Contrastive Learning for Visual Representations [19.136685699971864]
視覚における「対照的」学習アルゴリズムは、伝達タスクにおいて非常によく機能する表現を学ぶために示されている。
このアルゴリズムの族は、画像の2つ以上の「ビュー」間の相互情報の低境界を最大化する。
負のサンプルとビューの選択は、これらのアルゴリズムの成功に不可欠である。
論文 参考訳(メタデータ) (2020-05-27T04:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。