論文の概要: An Empirical Analysis of VLM-based OOD Detection: Mechanisms, Advantages, and Sensitivity
- arxiv url: http://arxiv.org/abs/2509.13375v1
- Date: Tue, 16 Sep 2025 06:11:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.574172
- Title: An Empirical Analysis of VLM-based OOD Detection: Mechanisms, Advantages, and Sensitivity
- Title(参考訳): VLMを用いたOOD検出の実証分析:メカニズム,アドバンテージ,感度
- Authors: Yuxiao Lee, Xiaofeng Cao, Wei Ye, Jiangchao Yao, Jingkuan Song, Heng Tao Shen,
- Abstract要約: VLM (Vision-Language Models) は、卓越したゼロショット・アウト・オブ・ディストリビューション(OOD)検出能力を示した。
In-distribution (ID) と OOD プロンプトを用いた VLM を用いた OOD 検出の系統的実験的検討を行った。
- 参考スコア(独自算出の注目度): 104.05991573442805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs), such as CLIP, have demonstrated remarkable zero-shot out-of-distribution (OOD) detection capabilities, vital for reliable AI systems. Despite this promising capability, a comprehensive understanding of (1) why they work so effectively, (2) what advantages do they have over single-modal methods, and (3) how is their behavioral robustness -- remains notably incomplete within the research community. This paper presents a systematic empirical analysis of VLM-based OOD detection using in-distribution (ID) and OOD prompts. (1) Mechanisms: We systematically characterize and formalize key operational properties within the VLM embedding space that facilitate zero-shot OOD detection. (2) Advantages: We empirically quantify the superiority of these models over established single-modal approaches, attributing this distinct advantage to the VLM's capacity to leverage rich semantic novelty. (3) Sensitivity: We uncovers a significant and previously under-explored asymmetry in their robustness profile: while exhibiting resilience to common image noise, these VLM-based methods are highly sensitive to prompt phrasing. Our findings contribute a more structured understanding of the strengths and critical vulnerabilities inherent in VLM-based OOD detection, offering crucial, empirically-grounded guidance for developing more robust and reliable future designs.
- Abstract(参考訳): CLIPのようなVLM(Vision-Language Models)は、信頼性の高いAIシステムに不可欠なOOD(zero-shot out-of-distribution)検出機能を示している。
この有望な能力にもかかわらず、(1)効果的に働く理由の包括的な理解、(2)単一モーダルな方法よりもどのような利点があるのか、(3)その行動の堅牢性は、研究コミュニティの中で顕著に不完全である。
In-distribution (ID) と OOD プロンプトを用いた VLM を用いた OOD 検出の系統的実験的検討を行った。
1) 機構: ゼロショットOOD検出を容易にするVLM埋め込み空間において, 重要な操作特性を体系的に特徴付け, 定式化する。
2) 優位性: 確立された単一モーダルアプローチよりもこれらのモデルの優位性を実証的に定量化し, リッチなセマンティックノベルティを活用するVLMの能力に, この明確な優位性をもたらす。
(3) 感度: 強靭性プロファイルにおいて, 有意かつ未探索な非対称性を明らかにする: 一般的な画像雑音に対する耐性を示す一方で, これらのVLMに基づく手法は, 高速な表現に非常に敏感である。
我々の研究は、VLMによるOOD検出に固有の強度と致命的な脆弱性のより構造化された理解に寄与し、より堅牢で信頼性の高い将来の設計を開発する上で、極めて重要かつ実証的な指針を提供する。
関連論文リスト
- Reasoning Models Can be Easily Hacked by Fake Reasoning Bias [59.79548223686273]
我々は、Reasoning Theatre Bias (RTB)を評価するための総合的なベンチマークTheATERを紹介する。
簡単なクイズとフェイク・オブ・サートを含む6種類のバイアスタイプについて検討した。
我々は、RTBの最も強力な形式として、'hallow reasoning'-plausibleだが欠陥のある議論を識別する。
論文 参考訳(メタデータ) (2025-07-18T09:06:10Z) - The Best of Both Worlds: On the Dilemma of Out-of-distribution Detection [75.65876949930258]
アウト・オブ・ディストリビューション(OOD)検出はモデル信頼性に不可欠である。
我々は,OODの一般化能力を秘かに犠牲にすることで,最先端手法のOOD検出性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-12T07:02:04Z) - How Good Are LLMs at Out-of-Distribution Detection? [13.35571704613836]
アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)モデルの信頼性を高める上で重要な役割を果たす。
本稿では,大規模言語モデル(LLM)の領域におけるOOD検出の先駆的実証研究について述べる。
論文 参考訳(メタデータ) (2023-08-20T13:15:18Z) - Rethinking Out-of-distribution (OOD) Detection: Masked Image Modeling is
All You Need [52.88953913542445]
簡単な再構築手法を用いることで,OOD検出の性能が大幅に向上する可能性が示唆された。
我々は、OOD検出フレームワーク(MOOD)のプリテキストタスクとして、マスケ画像モデリング(Masked Image Modeling)を採用する。
論文 参考訳(メタデータ) (2023-02-06T08:24:41Z) - Models Out of Line: A Fourier Lens on Distribution Shift Robustness [29.12208822285158]
分散外(OOD)データに対するディープニューラルネットワーク(DNN)の精度向上は、現実世界の応用におけるディープラーニング(DL)の受容に不可欠である。
近年、OODの堅牢性を改善するためにいくつかの有望なアプローチが開発されている。
効果的なロバスト性を監視するために必要なOODデータとモデル特性の条件について、いまだに明確な理解が得られていない。
論文 参考訳(メタデータ) (2022-07-08T18:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。