論文の概要: Reevaluating the Intra-Modal Misalignment Hypothesis in CLIP
- arxiv url: http://arxiv.org/abs/2603.16100v1
- Date: Tue, 17 Mar 2026 03:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.093145
- Title: Reevaluating the Intra-Modal Misalignment Hypothesis in CLIP
- Title(参考訳): CLIPにおけるModal Misalignment hypothesisの再検討
- Authors: Jonas Herzog, Yue Wang,
- Abstract要約: 近年の研究では、CLIPライクなコントラスト言語イメージトレーニングによる埋め込みが、画像のみのタスクに最適であることが示唆されている。
本研究では,このモーダル内不整合仮説を疑問視する。
モーダル内タスク検索と少数ショット分類の実験により、不正と想定されないタスクのあいまいさに対処することが、最良の結果の鍵であることが確認された。
- 参考スコア(独自算出の注目度): 6.881709944373821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research suggested that the embeddings produced by CLIP-like contrastive language-image training are suboptimal for image-only tasks. The main theory is that the inter-modal (language-image) alignment loss ignores intra-modal (image-image) alignment, leading to poorly calibrated distances between images. In this study, we question this intra-modal misalignment hypothesis. We reexamine its foundational theoretical argument, the indicators used to support it, and the performance metrics affected. For the theoretical argument, we demonstrate that there are no such supposed degrees of freedom for image embedding distances. For the empirical measures, our findings reveal they yield similar results for language-image trained models (CLIP, SigLIP) and image-image trained models (DINO, SigLIP2). This indicates the observed phenomena do not stem from a misalignment specific to the former. Experiments on the commonly studied intra-modal tasks retrieval and few-shot classification confirm that addressing task ambiguity, not supposed misalignment, is key for best results.
- Abstract(参考訳): 近年の研究では、CLIPライクなコントラスト言語イメージトレーニングによる埋め込みが、画像のみのタスクに最適であることが示唆されている。
主な理論は、モーダル間のアライメント損失はモーダル内(画像内)アライメントを無視し、画像間のキャリブレーションが不十分であるということである。
本研究では,このモーダル内不整合仮説を疑問視する。
我々は、その基本的な理論的議論、それをサポートするために使われた指標、そして影響したパフォーマンス指標を再検討する。
理論的議論では、画像埋め込み距離にはそのような自由度は存在しないことが示される。
その結果,言語画像訓練モデル (CLIP, SigLIP) と画像画像訓練モデル (DINO, SigLIP2) では同様の結果が得られた。
これは、観測された現象は、前者特有の不一致に起因していないことを示している。
モーダル内タスク検索と少数ショット分類の実験により、不正と想定されないタスクのあいまいさに対処することが、最良の結果の鍵であることが確認された。
関連論文リスト
- It's Not a Modality Gap: Characterizing and Addressing the Contrastive Gap [4.437949196235149]
CLIPのような2エンコーダコントラストモデルでは、モダリティギャップが報告されている。
これらの要因を全て考慮しても、対照的な損失は実際にトレーニング中にギャップを生じさせます。
この対照的なギャップがCLIP空間の低均一性に起因する証拠を提示する。
論文 参考訳(メタデータ) (2024-05-28T20:28:07Z) - Misalign, Contrast then Distill: Rethinking Misalignments in
Language-Image Pretraining [10.649402840032138]
コントラスト言語-画像事前学習は、Webから未修正画像-テキストペアで視覚とテキストエンコーダを訓練するための顕著なアプローチとして登場した。
画像の増大過程はテキストを意識していないため、この手順はトレーニング中に様々な画像テキストの誤認識を引き起こす可能性がある。
そこで本研究では,これらのミスアライメントを付加的なトレーニング源として活用する,新しい計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T23:22:47Z) - Introspective Deep Metric Learning [91.47907685364036]
本稿では,不確実性を考慮した画像比較のためのイントロスペクティブな深度学習フレームワークを提案する。
提案するIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能を向上させる。
論文 参考訳(メタデータ) (2023-09-11T16:21:13Z) - Exploiting Pseudo Image Captions for Multimodal Summarization [26.033681302592207]
視覚言語におけるクロスモーダルなコントラスト学習は、(一部)偽陰性の挑戦に直面している。
画像/テキストアンカーとその負のテキスト/画像間のMIをより正確に最適化する。
論文 参考訳(メタデータ) (2023-05-09T14:47:25Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - Introspective Deep Metric Learning for Image Retrieval [80.29866561553483]
良好な類似性モデルは、より堅牢なトレーニングのために曖昧なイメージをよりよく扱うように注意しながら、意味的な相違を考慮すべきである、と我々は主張する。
本稿では,画像の意味的特徴とあいまいさを記述した,意味的埋め込みだけでなく,付随する不確実性埋め込みを用いて画像を表現することを提案する。
提案したIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能向上を実現し,広く使用されているCUB-200-2011,Cars196,Stanford Online Productsデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2022-05-09T17:51:44Z) - SLUA: A Super Lightweight Unsupervised Word Alignment Model via
Cross-Lingual Contrastive Learning [79.91678610678885]
超軽量非教師付き単語アライメントモデル(SLUA)を提案する。
いくつかの公開ベンチマークによる実験結果から,我々のモデルは性能が向上しても競争力を発揮することが示された。
特に、我々のモデルはバイリンガル単語の埋め込みと単語のアライメントを統一する先駆的な試みであると認識している。
論文 参考訳(メタデータ) (2021-02-08T05:54:11Z) - Unsupervised Landmark Learning from Unpaired Data [117.81440795184587]
教師なしランドマーク学習の最近の試みは、外観は似ているがポーズでは異なる合成画像対を活用する。
本稿では,2回スワッピング・リコンストラクション・ストラテジーを適用して最終監視を行うクロスイメージ・サイクル整合性フレームワークを提案する。
提案するフレームワークは,強いベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-06-29T13:57:20Z) - Grounded and Controllable Image Completion by Incorporating Lexical
Semantics [111.47374576372813]
Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。
視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。
LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
論文 参考訳(メタデータ) (2020-02-29T16:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。