論文の概要: Enhancing Conceptual Understanding in Multimodal Contrastive Learning
through Hard Negative Samples
- arxiv url: http://arxiv.org/abs/2403.02875v1
- Date: Tue, 5 Mar 2024 11:38:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 15:08:06.770004
- Title: Enhancing Conceptual Understanding in Multimodal Contrastive Learning
through Hard Negative Samples
- Title(参考訳): ハードネガティブサンプルによるマルチモーダルコントラスト学習における概念理解の促進
- Authors: Philipp J. R\"osch and Norbert Oswald and Michaela Geierhos and
Jind\v{r}ich Libovick\'y
- Abstract要約: 本稿では,合成ハードネガティブテキストを取り入れた新しい事前学習手法を提案する。
硬い負の項は視覚的概念に対応し、よりきめ細かい視覚的概念とテキスト的概念のアライメントをもたらす。
InpaintCOCOは、視覚言語モデルにおける色、オブジェクト、サイズをきめ細かいアライメントを評価するための新しいデータセットである。
- 参考スコア(独自算出の注目度): 3.2635082758250693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current multimodal models leveraging contrastive learning often face
limitations in developing fine-grained conceptual understanding. This is due to
random negative samples during pretraining, causing almost exclusively very
dissimilar concepts to be compared in the loss function. Consequently, the
models struggle with fine-grained semantic differences. To address this
problem, we introduce a novel pretraining method incorporating synthetic hard
negative text examples. The hard negatives permute terms corresponding to
visual concepts, leading to a more fine-grained visual and textual concept
alignment. Further, we introduce InpaintCOCO, a new challenging dataset for
assessing the fine-grained alignment of colors, objects, and sizes in
vision-language models. We created the dataset using generative inpainting from
COCO images by changing the visual concepts so that the images no longer match
their original captions. Our results show significant improvements in
fine-grained concept understanding across a wide range of vision-language
datasets, including our InpaintCOCO dataset.
- Abstract(参考訳): 対照的な学習を活用する現在のマルチモーダルモデルは、しばしば細かい概念的理解を開発する際に限界に直面している。
これは事前学習中のランダムな負のサンプルのためであり、損失関数においてほとんど全く異なる概念が比較される。
その結果、モデルは細粒度のセマンティックな違いに悩まされる。
この問題に対処するために,合成ハードネガティブテキストを組み込んだ新しい事前学習法を提案する。
硬い負の項は視覚的概念に対応し、よりきめ細かい視覚的概念とテキスト的概念のアライメントをもたらす。
さらに、視覚言語モデルにおける色、オブジェクト、サイズをきめ細かいアライメントを評価するための、新しい挑戦的データセットであるInpaintCOCOを紹介する。
画像が元のキャプションと一致しないように、視覚概念を変更してCOCO画像から生成的インペイントを用いてデータセットを作成しました。
InpaintCOCOデータセットを含む、広範囲の視覚言語データセットにおける詳細な概念理解の大幅な改善が得られた。
関連論文リスト
- A Simple Graph Contrastive Learning Framework for Short Text Classification [23.36436403062214]
短文分類のための簡易グラフコントラスト学習フレームワーク(SimSTC)を提案する。
本手法は,マルチビュー・コントラッシブ・ラーニングの利点を生かしながら,コントラスト・ビューを生成するためのデータ拡張操作を不要とする。
その単純さにもかかわらず、我々のモデルは優れた性能を達成し、様々なデータセット上の大きな言語モデルを上回っている。
論文 参考訳(メタデータ) (2025-01-16T00:35:56Z) - A New Method to Capturing Compositional Knowledge in Linguistic Space [0.0]
ZS-CUは、厳しい負のトレーニングデータを必要とせずに構成的理解を高める新しいタスクである。
予め訓練されたCLIPモデルにおいて,テキストインバージョンを用いてラベルのない画像を擬似トークンにマッピングするYUKINOを提案する。
ユキノはSugarCREPEベンチマークで既存のマルチモーダルSOTAモデルを8%以上上回っている。
論文 参考訳(メタデータ) (2024-12-20T07:48:09Z) - Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。
既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。
本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文 参考訳(メタデータ) (2024-05-11T05:01:53Z) - Continual Contrastive Spoken Language Understanding [33.09005399967931]
COCONUTは、経験リプレイとコントラスト学習の組み合わせに依存するクラスインクリメンタルラーニング(CIL)手法である。
我々は,COCONUTをデコーダ側で動作するメソッドと組み合わせることで,さらなるメトリクス改善を実現することを示す。
論文 参考訳(メタデータ) (2023-10-04T10:09:12Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Contrastive Learning of Visual-Semantic Embeddings [4.7464518249313805]
本稿では,正規化されたクロスエントロピーに基づく2つの損失関数を提案する。
本研究は,画像・テキスト・テキスト・画像検索タスクにおける既存のビジュアル・セマンティックな埋め込み手法と比較する。
論文 参考訳(メタデータ) (2021-10-17T17:28:04Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Co-Grounding Networks with Semantic Attention for Referring Expression
Comprehension in Videos [96.85840365678649]
エレガントなワンステージの枠組みで動画の表現理解を参照する問題に取り組みます。
意味的注意学習により単フレーム接地精度を高め、クロスフレーム接地一貫性を向上させます。
私たちのモデルは、RefCOCOデータセットのパフォーマンス改善によって示される、画像の表現理解の参照にも適用できます。
論文 参考訳(メタデータ) (2021-03-23T06:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。