論文の概要: Closing the Modality Gap for Mixed Modality Search
- arxiv url: http://arxiv.org/abs/2507.19054v1
- Date: Fri, 25 Jul 2025 08:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.877983
- Title: Closing the Modality Gap for Mixed Modality Search
- Title(参考訳): 混合モダリティ探索のためのモダリティギャップの閉鎖
- Authors: Binxu Li, Yuhui Zhang, Xiaohan Wang, Weixin Liang, Ludwig Schmidt, Serena Yeung-Levy,
- Abstract要約: 混合モダリティ探索タスクにおいて,CLIPなどの視覚言語モデルがどのように機能するかを検討する。
これらのモデルは埋め込み空間において顕著なモダリティギャップを示す。
本稿では,CLIPの埋め込み空間におけるモダリティギャップを取り除く軽量なポストホックキャリブレーション法GR-CLIPを提案する。
- 参考スコア(独自算出の注目度): 47.00880557856163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixed modality search -- retrieving information across a heterogeneous corpus composed of images, texts, and multimodal documents -- is an important yet underexplored real-world application. In this work, we investigate how contrastive vision-language models, such as CLIP, perform on the mixed modality search task. Our analysis reveals a critical limitation: these models exhibit a pronounced modality gap in the embedding space, where image and text embeddings form distinct clusters, leading to intra-modal ranking bias and inter-modal fusion failure. To address this issue, we propose GR-CLIP, a lightweight post-hoc calibration method that removes the modality gap in CLIP's embedding space. Evaluated on MixBench -- the first benchmark specifically designed for mixed modality search -- GR-CLIP improves NDCG@10 by up to 26 percentage points over CLIP, surpasses recent vision-language generative embedding models by 4 percentage points, while using 75x less compute.
- Abstract(参考訳): 混合モダリティ検索(Mixed modality search) -- 画像、テキスト、マルチモーダルドキュメントからなる異種コーパスにまたがる情報を取得する -- は、重要で未調査の現実世界のアプリケーションである。
本研究では,CLIPのような視覚言語モデルが混合モーダル検索タスクにおいてどのように機能するかを検討する。
これらのモデルは、画像とテキストの埋め込みが異なるクラスタを形成し、モーダル内ランキングバイアスとモーダル間融合失敗を引き起こす、埋め込み空間において顕著なモダリティギャップを示す。
この問題を解決するために,CLIPの埋め込み空間におけるモダリティギャップを取り除く軽量なポストホックキャリブレーション法GR-CLIPを提案する。
混合モダリティ検索用に設計された最初のベンチマークであるMixBenchに基づく評価 - GR-CLIPは、CLIPよりも最大26ポイントNDCG@10を改善し、最新の視覚言語生成型埋め込みモデルを4ポイント上回り、計算量は75倍少ない。
関連論文リスト
- An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。
既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。
短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。
さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文 参考訳(メタデータ) (2025-07-18T10:07:42Z) - MemeCLIP: Leveraging CLIP Representations for Multimodal Meme Classification [11.270267165348626]
LGBTQ+ Pride 運動に関連する5,063個のテキスト埋め込み画像からなる新しいデータセット PrideMM を提案する。
事前学習したCLIPモデルの知識を保ちながら、効率的な下流学習のための新しいフレームワークMemeCLIPを提案する。
論文 参考訳(メタデータ) (2024-09-23T04:49:08Z) - Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - Towards Optimal Aggregation of Varying Range Dependencies in Haze Removal [17.29370328189668]
ヘイズ除去は、ぼんやりとした入力から明確なイメージを復元することを目的としている。
既存の手法は、局所的な詳細保存のための短距離依存か、グローバルな文脈モデリングのための長距離依存のいずれかをキャプチャすることで、有意義な有効性を示している。
bfDehazeMaticは,2経路設計により短距離および長距離の依存関係を捕捉し,修復を改善する。
論文 参考訳(メタデータ) (2024-08-22T11:51:50Z) - ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference [32.852004564832455]
我々はCLIPのアーキテクチャを再検討し、残余接続をセグメンテーション品質を劣化させるノイズの主源として同定する。
オープン語彙セマンティックセグメンテーションを強化するためにCLIPの表現を分解する新しいアプローチであるClearCLIPを提案する。
論文 参考訳(メタデータ) (2024-07-17T09:52:20Z) - Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP [22.076206386214565]
コントラスト言語-画像事前学習は、ゼロショット分類とクロスモーダル視覚言語タスクにおいて顕著に改善されている。
幾何学的な観点から、CLIP埋め込み空間は明らかにモダリティギャップを持つ。
本稿では,AlignCLIPが組込みのクロスモーダルアライメントにおいて顕著な拡張を実現していることを示す。
論文 参考訳(メタデータ) (2024-06-25T15:24:02Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - CPCL: Cross-Modal Prototypical Contrastive Learning for Weakly
Supervised Text-based Person Re-Identification [10.64115914599574]
弱教師付きテキストベース人物識別(TPRe-ID)は、テキスト記述を用いて対象人物の画像の検索を試みる。
主な課題はクラス内の違いであり、モーダル内特徴のバリエーションとモーダル間のセマンティックギャップを含んでいる。
実際には、CPCLはCLIPモデルを初めて弱教師付きTPRe-IDに導入し、ビジュアルインスタンスとテキストインスタンスを共有潜在空間にマッピングする。
論文 参考訳(メタデータ) (2024-01-18T14:27:01Z) - Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID [56.573905143954015]
本稿では, クラスタ間マッチングによるモダリティギャップを低減するための, クラスタマッチングに基づく新たな学習フレームワークを提案する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。
公開SYSU-MM01とRegDBデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-22T03:27:46Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - Clustering-Induced Generative Incomplete Image-Text Clustering (CIGIT-C) [3.2062075983668343]
本稿では,クラスタリングによる生成不完全画像テキストクラスタリング(CIGIT-C)ネットワークを提案する。
まず、モダリティ固有のエンコーダを用いて、元の特徴をより特異な部分空間にマッピングする。
イントラモダリティとインターモダリティ間の潜伏接続は、徹底的に調査されている。
論文 参考訳(メタデータ) (2022-09-28T01:19:52Z) - X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text
Retrieval [87.3821932795969]
細かなコントラストは粗い粒度の表現と細かな粒度の表現のコントラストである。
X-CLIPはビデオテキスト検索のための新しいマルチグラウンドコントラストモデルである。
X-CLIPは、広く使われている5つのビデオテキスト検索データセットにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-07-15T04:23:42Z) - One-Shot Adaptation of GAN in Just One CLIP [51.188396199083336]
本稿では,CLIP空間を統一した単一ショットGAN適応方式を提案する。
具体的には、CLIP誘導潜在最適化を用いて、ソースジェネレータ内の参照画像検索という2段階のトレーニング戦略を採用する。
対象のテクスチャで多様な出力を生成し,質的かつ定量的にベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T13:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。