論文の概要: Mitigating the Modality Gap: Few-Shot Out-of-Distribution Detection with Multi-modal Prototypes and Image Bias Estimation
- arxiv url: http://arxiv.org/abs/2502.00662v1
- Date: Sun, 02 Feb 2025 04:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:05:38.586460
- Title: Mitigating the Modality Gap: Few-Shot Out-of-Distribution Detection with Multi-modal Prototypes and Image Bias Estimation
- Title(参考訳): モダリティギャップの緩和:マルチモーダルプロトタイプによる分布検出と画像バイアス推定
- Authors: Yimu Wang, Evelien Riddell, Adrian Chow, Sean Sedwards, Krzysztof Czarnecki,
- Abstract要約: 既存の視覚言語モデル (VLM) を用いたアウト・オブ・ディストリビューション (OOD) 検出手法は、入力画像とイン・ディストリビューション (ID) テキストプロトタイプの類似点に依存する。
我々は、このモダリティギャップの影響を軽減するために、ID画像のプロトタイプとIDテキストのプロトタイプを組み合わせることを提案する。
本稿では,本手法がVLMに基づくOOD検出性能を向上させることを示す理論的解析および実証的証拠について述べる。
- 参考スコア(独自算出の注目度): 6.449894994514711
- License:
- Abstract: Existing vision-language model (VLM)-based methods for out-of-distribution (OOD) detection typically rely on similarity scores between input images and in-distribution (ID) text prototypes. However, the modality gap between image and text often results in high false positive rates, as OOD samples can exhibit high similarity to ID text prototypes. To mitigate the impact of this modality gap, we propose incorporating ID image prototypes along with ID text prototypes. We present theoretical analysis and empirical evidence indicating that this approach enhances VLM-based OOD detection performance without any additional training. To further reduce the gap between image and text, we introduce a novel few-shot tuning framework, SUPREME, comprising biased prompts generation (BPG) and image-text consistency (ITC) modules. BPG enhances image-text fusion and improves generalization by conditioning ID text prototypes on the Gaussian-based estimated image domain bias; ITC reduces the modality gap by minimizing intra- and inter-modal distances. Moreover, inspired by our theoretical and empirical findings, we introduce a novel OOD score $S_{\textit{GMP}}$, leveraging uni- and cross-modal similarities. Finally, we present extensive experiments to demonstrate that SUPREME consistently outperforms existing VLM-based OOD detection methods.
- Abstract(参考訳): 既存の視覚言語モデル (VLM) に基づくアウト・オブ・ディストリビューション (OOD) 検出法は、通常、入力画像とイン・ディストリビューション (ID) テキストプロトタイプの類似点に依存する。
しかし、画像とテキスト間のモダリティギャップは、OODサンプルがIDテキストプロトタイプと高い類似性を示すため、しばしば偽陽性率をもたらす。
このモダリティギャップの影響を軽減するため,ID画像のプロトタイプとIDテキストのプロトタイプを組み合わせることを提案する。
本稿では,本手法がVLMに基づくOOD検出性能を向上させることを示す理論的解析および実証的証拠について述べる。
画像とテキストのギャップをさらに減らすために, バイアスドプロンプト生成(BPG)と画像テキスト整合性(ITC)モジュールからなる, 新規な数ショットチューニングフレームワークSUPREMEを導入する。
BPGは画像テキストの融合を強化し、ガウスに基づく推定画像領域バイアスに基づいてIDテキストプロトタイプを条件付けすることで一般化し、ITCはモダリティギャップを最小化してモダリティギャップを低減する。
さらに, 理論的, 経験的知見に触発されて, ユニモーダルおよびクロスモーダルの類似性を利用したOODスコア$S_{\textit{GMP}}$を導入した。
最後に, SUPREME が既存の VLM ベースの OOD 検出法より一貫して優れていることを示すため, 広範囲な実験を行った。
関連論文リスト
- DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。
私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。
これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文 参考訳(メタデータ) (2025-02-05T16:35:42Z) - Toward Modality Gap: Vision Prototype Learning for Weakly-supervised Semantic Segmentation with CLIP [19.697857943845012]
本稿では,テキストプロトタイプの助けを借りて,視覚空間におけるクラス固有の視覚プロトタイプを学習するためのフレームワークを提案する。
また、対応するプロトタイプに埋め込まれた領域を対比する地域意味コントラストモジュールを提案する。
提案するフレームワークは,2つのベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-27T13:55:11Z) - FodFoM: Fake Outlier Data by Foundation Models Creates Stronger Visual Out-of-Distribution Detector [25.224930928724326]
オープンソースのアプリケーションに機械学習モデルをデプロイする際には、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
本稿では,新しいOOD検出フレームワークFodFoMを提案する。
最新のOOD検出性能は、複数のベンチマークで実現されている。
論文 参考訳(メタデータ) (2024-11-22T17:29:52Z) - Mind the Gap Between Prototypes and Images in Cross-domain Finetuning [64.97317635355124]
プロトタイプと画像にそれぞれ異なる変換を適用するために,コントラスト型プロトタイプイメージ適応(CoPA)を提案する。
Meta-Datasetの実験では、CoPAが最先端のパフォーマンスをより効率的に達成できることが示されている。
論文 参考訳(メタデータ) (2024-10-16T11:42:11Z) - Optimizing OOD Detection in Molecular Graphs: A Novel Approach with Diffusion Models [71.39421638547164]
本稿では,入力分子と再構成グラフの類似性を比較する補助拡散モデルに基づくフレームワークを用いてOOD分子を検出することを提案する。
IDトレーニングサンプルの再構成に向けた生成バイアスのため、OOD分子の類似度スコアは検出を容易にするためにはるかに低い。
本研究は,PGR-MOOD(PGR-MOOD)とよばれる分子OOD検出のためのプロトタイプグラフ再構成のアプローチを開拓し,3つのイノベーションを生かした。
論文 参考訳(メタデータ) (2024-04-24T03:25:53Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Improving Compositional Text-to-image Generation with Large
Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。
生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。
提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文 参考訳(メタデータ) (2023-10-10T05:09:05Z) - Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment
for Markup-to-Image Generation [15.411325887412413]
本稿では,FSA-CDM (Contrast-augmented Diffusion Model with Fine-fine Sequence Alignment) という新しいモデルを提案する。
FSA-CDMは、マークアップ・ツー・イメージ生成の性能を高めるために、対照的な正/負のサンプルを拡散モデルに導入する。
異なるドメインの4つのベンチマークデータセットで実験が行われる。
論文 参考訳(メタデータ) (2023-08-02T13:43:03Z) - Text-Conditioned Sampling Framework for Text-to-Image Generation with
Masked Generative Models [52.29800567587504]
そこで本研究では,テキスト情報を用いた局所的監視により最適なトークンを選択するための,学習可能なサンプリングモデルであるテキスト定義トークン選択(TCTS)を提案する。
TCTSは画像の品質だけでなく、生成された画像と与えられたテキストのセマンティックアライメントも改善する。
我々は、周波数適応サンプリング(FAS)と様々な生成タスクを組み合わせたTCTSの有効性を検証し、画像テキストのアライメントや画質において、ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-04T03:52:49Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。