論文の概要: Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs
- arxiv url: http://arxiv.org/abs/2603.02618v1
- Date: Tue, 03 Mar 2026 05:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.650618
- Title: Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs
- Title(参考訳): 否定的テキストの選択方法を考える:VLMを用いたOOD検出における距離一貫性
- Authors: Zhikang Xu, Qianqian Xu, Zitai Wang, Cong Hua, Sicong Li, Zhiyong Yang, Qingming Huang,
- Abstract要約: Out-of-Distribution (OOD) は未知のクラスからサンプルを識別する。
現在の手法では、否定的なテキストとIDラベルを比較するなど、OOD検出中にモード内距離を組み込むことが多い。
テキストおよび視覚的視点から一貫したモーダル距離拡張を体系的に利用するフレームワークであるInterNegを提案する。
- 参考スコア(独自算出の注目度): 80.03370593724422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Out-of-distribution (OOD) detection seeks to identify samples from unknown classes, a critical capability for deploying machine learning models in open-world scenarios. Recent research has demonstrated that Vision-Language Models (VLMs) can effectively leverage their multi-modal representations for OOD detection. However, current methods often incorporate intra-modal distance during OOD detection, such as comparing negative texts with ID labels or comparing test images with image proxies. This design paradigm creates an inherent inconsistency against the inter-modal distance that CLIP-like VLMs are optimized for, potentially leading to suboptimal performance. To address this limitation, we propose InterNeg, a simple yet effective framework that systematically utilizes consistent inter-modal distance enhancement from textual and visual perspectives. From the textual perspective, we devise an inter-modal criterion for selecting negative texts. From the visual perspective, we dynamically identify high-confidence OOD images and invert them into the textual space, generating extra negative text embeddings guided by inter-modal distance. Extensive experiments across multiple benchmarks demonstrate the superiority of our approach. Notably, our InterNeg achieves state-of-the-art performance compared to existing works, with a 3.47\% reduction in FPR95 on the large-scale ImageNet benchmark and a 5.50\% improvement in AUROC on the challenging Near-OOD benchmark.
- Abstract(参考訳): Out-of-Distribution(OOD)検出は、未知のクラスからサンプルを特定することを目的としている。
近年の研究では、視覚言語モデル(VLM)がOOD検出の多モード表現を効果的に活用できることが示されている。
しかし、現在の手法では、負のテキストをIDラベルと比較したり、テストイメージを画像プロキシと比較するなど、OOD検出中にモード内距離を組み込むことが多い。
この設計パラダイムは、CLIPのようなVLMが最適化されるモード間距離に固有の矛盾を生じさせ、亜最適性能をもたらす可能性がある。
この制限に対処するために,テキストおよび視覚的視点から一貫したモーダル間距離拡張を体系的に利用する,シンプルで効果的なフレームワークであるInterNegを提案する。
テキストの観点から、ネガティブテキストを選択するためのモーダル間基準を考案する。
視覚的視点から高信頼OOD画像を動的に識別し,それらをテキスト空間に逆転させ,モーダル間距離でガイドされる付加的な負のテキスト埋め込みを生成する。
複数のベンチマークにわたる大規模な実験は、我々のアプローチの優位性を示している。
特に,当社のInterNegは,大規模なImageNetベンチマークではFPR95が3.47倍,挑戦的なNear-OODベンチマークではAUROCが5.50倍,最先端のパフォーマンスを実現しています。
関連論文リスト
- Vision Also You Need: Navigating Out-of-Distribution Detection with Multimodal Large Language Model [42.29540047339044]
アウト・オブ・ディストリビューション(OOD)検出は重要な課題であり、大きな注目を集めている。
本稿では,MLLMのマルチモーダル推論機能を活用した新しいパイプラインMM-OODを提案する。
提案手法は,OODタスクの近・遠の両方における性能向上を目的としている。
論文 参考訳(メタデータ) (2026-01-20T15:06:10Z) - Cross-modal Proxy Evolving for OOD Detection with Vision-Language Models [59.242742594156546]
CoEvoは、テキストプロキシとビジュアルプロキシの両方を双方向でサンプル条件で適応するテストタイムフレームワークである。
CoEvoは最先端のパフォーマンスを実現し、AUROCを1.33%改善し、ImageNet-1KではFPR95を45.98%削減した。
論文 参考訳(メタデータ) (2026-01-13T12:08:26Z) - Out-of-Distribution Detection with Positive and Negative Prompt Supervision Using Large Language Models [33.39682202143465]
アウト・オブ・ディストリビューション(OOD)検出は、イン・ディストリビューション(ID)とOOD画像の分類境界を規定する。
画像特徴とプロンプトコンテンツの相違を強調するために、負のプロンプトが導入される。
我々は,クラス間の特徴を捕捉するネガティブなプロンプトを奨励するポジティブ・ネガティブ・プロンプト・スーパービジョンを提案する。
論文 参考訳(メタデータ) (2025-11-14T03:24:09Z) - When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.71264263478083]
MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。
546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
論文 参考訳(メタデータ) (2025-11-04T18:00:51Z) - Mitigating the Modality Gap: Few-Shot Out-of-Distribution Detection with Multi-modal Prototypes and Image Bias Estimation [6.449894994514711]
既存の視覚言語モデル (VLM) を用いたアウト・オブ・ディストリビューション (OOD) 検出手法は、入力画像とイン・ディストリビューション (ID) テキストプロトタイプの類似点に依存する。
我々は、このモダリティギャップの影響を軽減するために、ID画像のプロトタイプとIDテキストのプロトタイプを組み合わせることを提案する。
本稿では,本手法がVLMに基づくOOD検出性能を向上させることを示す理論的解析および実証的証拠について述べる。
論文 参考訳(メタデータ) (2025-02-02T04:30:51Z) - AdaNeg: Adaptive Negative Proxy Guided OOD Detection with Vision-Language Models [15.754054667010468]
事前学習された視覚言語モデルは、負のラベルをガイダンスとして使用することにより、配布外サンプル(OOD)を特定するのに効果的である。
我々は,実際のOOD画像の探索により,テスト中に動的に生成されるテクスタダプティブな負のプロキシを提案する。
AUROCは2.45%増加し,FPR95は6.48%低下した。
論文 参考訳(メタデータ) (2024-10-26T11:20:02Z) - Negative Label Guided OOD Detection with Pretrained Vision-Language Models [96.67087734472912]
Out-of-distriion (OOD) は未知のクラスからサンプルを識別することを目的としている。
我々は,大規模なコーパスデータベースから大量の負のラベルを抽出する,NegLabelと呼ばれる新しいポストホックOOD検出手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T09:19:52Z) - From Global to Local: Multi-scale Out-of-distribution Detection [129.37607313927458]
アウト・オブ・ディストリビューション(OOD)検出は、イン・ディストリビューション(ID)トレーニングプロセス中にラベルが見られない未知のデータを検出することを目的としている。
近年の表現学習の進歩により,距離に基づくOOD検出がもたらされる。
グローバルな視覚情報と局所的な情報の両方を活用する第1のフレームワークであるマルチスケールOOD検出(MODE)を提案する。
論文 参考訳(メタデータ) (2023-08-20T11:56:25Z) - Triggering Failures: Out-Of-Distribution detection by learning from
local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。
私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。
3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-03T17:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。