論文の概要: Bridging the Modality Gap by Similarity Standardization with Pseudo-Positive Samples
- arxiv url: http://arxiv.org/abs/2511.22141v1
- Date: Thu, 27 Nov 2025 06:17:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.420441
- Title: Bridging the Modality Gap by Similarity Standardization with Pseudo-Positive Samples
- Title(参考訳): 擬陽性サンプルとの類似標準化によるモダリティギャップのブリッジ
- Authors: Shuhei Yamashita, Daiki Shirafuji, Tatsuhiko Saito,
- Abstract要約: データベースにテキストと画像の両方が存在する場合、モダリティ間の検索は困難である。
この現象はモダリティギャップ(Modality gap)と呼ばれ、正確な検索を妨げる。
擬似データ構造を用いた類似性標準化手法を提案する。
- 参考スコア(独自算出の注目度): 0.9430947207126281
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Advances in vision-language models (VLMs) have enabled effective cross-modality retrieval. However, when both text and images exist in the database, similarity scores would differ in scale by modality. This phenomenon, known as the modality gap, hinders accurate retrieval. Most existing studies address this issue with manually labeled data, e.g., by fine-tuning VLMs on them. In this work, we propose a similarity standardization approach with pseudo data construction. We first compute the mean and variance of the similarity scores between each query and its paired data in text or image modality. Using these modality-specific statistics, we standardize all similarity scores to compare on a common scale across modalities. These statistics are calculated from pseudo pairs, which are constructed by retrieving the text and image candidates with the highest cosine similarity to each query. We evaluate our method across seven VLMs using two multi-modal QA benchmarks (MMQA and WebQA), where each question requires retrieving either text or image data. Our experimental results show that our method significantly improves retrieval performance, achieving average Recall@20 gains of 64% on MMQA and 28% on WebQA when the query and the target data belong to different modalities. Compared to E5-V, which addresses the modality gap through image captioning, we confirm that our method more effectively bridges the modality gap.
- Abstract(参考訳): 視覚言語モデル(VLM)の進歩により、効果的なモダリティ検索が可能になった。
しかし、データベースにテキストと画像の両方が存在する場合、類似度スコアはモダリティによって異なる。
この現象はモダリティギャップ(Modality gap)と呼ばれ、正確な検索を妨げる。
既存の研究の多くは、手動でラベル付けされたデータ、例えば、VLMを微調整することでこの問題に対処している。
本研究では,擬似データ構造を用いた類似性標準化手法を提案する。
まず、各クエリとそのペアデータ間の類似度スコアの平均と分散を、テキストや画像のモダリティで計算する。
これらのモダリティ特化統計を用いて、すべての類似度スコアを標準化し、モダリティをまたいだ共通のスケールで比較する。
これらの統計は擬似ペアから算出され、各クエリに最も類似したテキストと画像候補を検索することで構成される。
2つのマルチモーダルQAベンチマーク(MMQAとWebQA)を用いて,本手法を7つのVLMにわたって評価する。
実験の結果,MMQAでは平均Recall@20が64%,WebQAでは28%,クエリとターゲットデータが異なるモダリティに属する場合,検索性能が大幅に向上することがわかった。
画像キャプションによるモダリティギャップに対処するE5-Vと比較して,本手法がモダリティギャップをより効果的に橋渡しすることを確認した。
関連論文リスト
- Category-level Text-to-Image Retrieval Improved: Bridging the Domain Gap with Diffusion Models and Vision Encoders [41.08205377881149]
本研究は,セマンティックカテゴリを指定または記述したクエリのテキスト・ツー・イメージ検索について検討する。
生成拡散モデルを用いて,テキストクエリを視覚的なクエリに変換する。
そして、視覚モデルと画像間の類似性を推定する。
論文 参考訳(メタデータ) (2025-08-29T18:24:38Z) - Unified Coarse-to-Fine Alignment for Video-Text Retrieval [71.85966033484597]
UCoFiAと呼ばれる統一粗粒配向モデルを提案する。
我々のモデルは、異なる粒度レベルで、モーダル間の類似情報をキャプチャする。
そこで,Sinkhorn-Knoppアルゴリズムを用いて各レベルの類似性を正規化し,それらを要約する。
論文 参考訳(メタデータ) (2023-09-18T19:04:37Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency [66.8685113725007]
BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。
3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-03-22T09:33:50Z) - End-to-End Context-Aided Unicity Matching for Person Re-identification [100.02321122258638]
本稿では,人間同士の一致関係を学習・精査するための,エンドツーエンドの対人一意整合アーキテクチャを提案する。
サンプルのグローバルコンテキスト関係を用いて,ソフトマッチング結果を洗練し,両部グラフマッチングにより一致ユニシティに到達する。
実世界における人物再識別の応用を十分に考慮し, ワンショットとマルチショットの双方で一様マッチングを実現する。
論文 参考訳(メタデータ) (2022-10-20T07:33:57Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - Two-stream Hierarchical Similarity Reasoning for Image-text Matching [66.43071159630006]
文脈情報を自動的に抽出する階層的類似性推論モジュールを提案する。
従来のアプローチでは、シングルストリームの類似性アライメントを学習することしか検討されていなかった。
イメージ・ツー・テキスト・レベルの類似性計算とテキスト・ツー・テキスト・レベルの類似性計算に画像・テキストマッチングを分解する2ストリームアーキテクチャを開発した。
論文 参考訳(メタデータ) (2022-03-10T12:56:10Z) - Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using
Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。
TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。
MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文 参考訳(メタデータ) (2020-08-12T11:02:40Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。