論文の概要: Its Not a Modality Gap: Characterizing and Addressing the Contrastive Gap
- arxiv url: http://arxiv.org/abs/2405.18570v2
- Date: Tue, 4 Jun 2024 20:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 23:59:22.741798
- Title: Its Not a Modality Gap: Characterizing and Addressing the Contrastive Gap
- Title(参考訳): モダリティギャップではない:コントラストギャップの特徴と対処
- Authors: Abrar Fahim, Alex Murphy, Alona Fyshe,
- Abstract要約: CLIPのような2エンコーダコントラストモデルでは、モダリティギャップが報告されている。
これらの要因を全て考慮しても、対照的な損失は実際にトレーニング中にギャップを生じさせます。
この対照的なギャップがCLIP空間の低均一性に起因する証拠を提示する。
- 参考スコア(独自算出の注目度): 4.437949196235149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal contrastive models such as CLIP achieve state-of-the-art performance in zero-shot classification by embedding input images and texts on a joint representational space. Recently, a modality gap has been reported in two-encoder contrastive models like CLIP, meaning that the image and text embeddings reside in disjoint areas of the latent space. Previous studies suggest that this gap exists due to 1) the cone effect, 2) mismatched pairs in the dataset, and 3) insufficient training. We show that, even when accounting for all these factors, and even when using the same modality, the contrastive loss actually creates a gap during training. As a result, We propose that the modality gap is inherent to the two-encoder contrastive loss and rename it the contrastive gap. We present evidence that attributes this contrastive gap to low uniformity in CLIP space, resulting in embeddings that occupy only a small portion of the latent space. To close the gap, we adapt the uniformity and alignment properties of unimodal contrastive loss to the multi-modal setting and show that simply adding these terms to the CLIP loss distributes the embeddings more uniformly in the representational space, closing the gap. In our experiments, we show that the modified representational space achieves better performance than default CLIP loss in downstream tasks such as zero-shot image classification and multi-modal arithmetic.
- Abstract(参考訳): CLIPのようなマルチモーダルコントラストモデルは、入力画像とテキストを共同表現空間に埋め込むことで、ゼロショット分類における最先端の性能を達成する。
近年、CLIPのような2エンコーダのコントラストモデルではモダリティギャップが報告されている。
これまでの研究では、このギャップは存在することが示唆されている。
1)コーン効果
2)データセットのミスマッチペア,及び
3)訓練不足。
これらすべての要因を考慮に入れたとしても、同じモダリティを使用しても、対照的な損失は実際にトレーニング中にギャップを生じさせます。
その結果、モダリティギャップは2エンコーダのコントラスト損失に固有のものであり、コントラストギャップにリネームすることを提案した。
この対照的なギャップがCLIP空間の低均一性に起因する証拠を提示する。
このギャップを埋めるために, マルチモーダル・セッティングに不定形コントラスト損失の均一性とアライメント特性を適用し, これらの項をCLIP損失に追加するだけで, 表現空間内での埋め込みをより均一に分散し, ギャップを閉じることを示す。
実験では、ゼロショット画像分類やマルチモーダル演算などの下流タスクにおいて、修正された表現空間がデフォルトのCLIP損失よりも優れた性能を実現することを示す。
関連論文リスト
- SimO Loss: Anchor-Free Contrastive Loss for Fine-Grained Supervised Contrastive Learning [0.0]
提案した類似性-直交性(SimO)損失を利用したアンカーフリーコントラスト学習(L)手法を提案する。
提案手法は,2つの主目的を同時に最適化するセミメトリック判別損失関数を最小化する。
埋め込み空間におけるSimO損失の影響を可視化する。
論文 参考訳(メタデータ) (2024-10-07T17:41:10Z) - CLIP Adaptation by Intra-modal Overlap Reduction [1.2277343096128712]
画像空間におけるモーダル内重なりを埋め込み表現の観点から解析する。
Google Open Imagesデータセットからサンプルのジェネリックセットに軽量アダプタをトレーニングします。
論文 参考訳(メタデータ) (2024-09-17T16:40:58Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP [22.076206386214565]
コントラスト言語-画像事前学習は、ゼロショット分類とクロスモーダル視覚言語タスクにおいて顕著に改善されている。
幾何学的な観点から、CLIP埋め込み空間は明らかにモダリティギャップを持つ。
本稿では,AlignCLIPが組込みのクロスモーダルアライメントにおいて顕著な拡張を実現していることを示す。
論文 参考訳(メタデータ) (2024-06-25T15:24:02Z) - On mitigating stability-plasticity dilemma in CLIP-guided image morphing
via geodesic distillation loss [38.31276786740577]
CLIPのような大規模言語ビジョンの事前学習モデルでは、テキスト誘導による画像モーフィングが顕著に達成されている。
既存のCLIP誘導画像改質法は、フォトリアリスティック画像の改質時に困難に遭遇する。
提案手法は,CLIP-inversionを含む様々なベンチマークにおいて,画像とビデオの両方において優れたモーフィング結果が得られる。
論文 参考訳(メタデータ) (2024-01-19T07:06:58Z) - UniCLIP: Unified Framework for Contrastive Language-Image Pre-training [62.97551575508387]
コントラスト言語-画像事前学習のための統一フレームワークUniCLIPを提案する。
UniCLIPは、ドメイン間のペアとドメイン内のペアの対比的な損失を単一の普遍空間に統合する。
UniCLIPは、様々な単一モードおよび多モードダウンストリームタスクにおいて、以前の視覚言語事前学習方法より優れている。
論文 参考訳(メタデータ) (2022-09-27T14:36:16Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Contrastive Feature Loss for Image Prediction [55.373404869092866]
教師付き画像合成モデルのトレーニングでは、批評家は2つの画像を比較する必要がある。
本稿では,2つの画像間の類似度を測定するための情報理論に基づくアプローチを提案する。
この定式化により,L1損失の代替として,出力画像の知覚的リアリズムが向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T20:39:52Z) - The Spatially-Correlative Loss for Various Image Translation Tasks [69.62228639870114]
シーン構造の一貫性を保つために、シンプルで効率的かつ効果的な新しい空間相関損失を提案します。
以前の方法は、ピクセルレベルのサイクル一貫性または特徴レベルのマッチング損失を使用してこれを試みます。
I2I翻訳の3つのモードすべてにおいて,ベースラインモデルに対して,単一モーダル,マルチモーダル,さらには単一イメージ翻訳において,明確な改善が見られた。
論文 参考訳(メタデータ) (2021-04-02T02:13:30Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。