論文の概要: FA: Forced Prompt Learning of Vision-Language Models for Out-of-Distribution Detection
- arxiv url: http://arxiv.org/abs/2507.04511v2
- Date: Tue, 08 Jul 2025 14:45:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 12:20:17.818916
- Title: FA: Forced Prompt Learning of Vision-Language Models for Out-of-Distribution Detection
- Title(参考訳): FA:アウト・オブ・ディストリビューション検出のための視覚言語モデルの強制的プロンプト学習
- Authors: Xinhua Lu, Runhe Lai, Yanqi Wu, Kanghao Chen, Wei-Shi Zheng, Ruixuan Wang,
- Abstract要約: 本稿では,In-Distribution (ID) の知識をフル活用するために,Forced prompt leArning (FA) に基づく革新的なCLIPベースのフレームワークを提案する。
FAは、外部補助データセットなしでトレーニングされた場合でも、OOD検出の顕著な改善を達成することができる。
- 参考スコア(独自算出の注目度): 25.015218537268115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained vision-language models (VLMs) have advanced out-of-distribution (OOD) detection recently. However, existing CLIP-based methods often focus on learning OOD-related knowledge to improve OOD detection, showing limited generalization or reliance on external large-scale auxiliary datasets. In this study, instead of delving into the intricate OOD-related knowledge, we propose an innovative CLIP-based framework based on Forced prompt leArning (FA), designed to make full use of the In-Distribution (ID) knowledge and ultimately boost the effectiveness of OOD detection. Our key insight is to learn a prompt (i.e., forced prompt) that contains more diversified and richer descriptions of the ID classes beyond the textual semantics of class labels. Specifically, it promotes better discernment for ID images, by forcing more notable semantic similarity between ID images and the learnable forced prompt. Moreover, we introduce a forced coefficient, encouraging the forced prompt to learn more comprehensive and nuanced descriptions of the ID classes. In this way, FA is capable of achieving notable improvements in OOD detection, even when trained without any external auxiliary datasets, while maintaining an identical number of trainable parameters as CoOp. Extensive empirical evaluations confirm our method consistently outperforms current state-of-the-art methods. Code is available at https://github.com/0xFAFA/FA.
- Abstract(参考訳): 事前学習された視覚言語モデル(VLM)は、最近OOD(Out-of-distribution)の検出が進んでいる。
しかし、既存のCLIPベースの手法は、OOD関連の知識を学習してOODの検出を改善することに集中し、外部の大規模補助データセットへの依存度が制限されている。
本研究では,複雑なOOD関連知識を掘り下げる代わりに,In-Distribution (ID) 知識をフル活用し,最終的にはOOD検出の有効性を高めるために,Forced prompt leArning (FA) に基づく革新的なCLIPベースのフレームワークを提案する。
我々の重要な洞察は、クラスラベルのテキスト意味論を超えて、より多様でリッチなIDクラスの記述を含むプロンプト(強制的なプロンプト)を学ぶことである。
具体的には、ID画像と学習可能な強制プロンプトとの間により顕著な意味的類似性を強制することにより、ID画像のより良い識別を促進する。
さらに、強制的係数を導入し、強制的プロンプトがより包括的でニュアンスなIDクラスの記述を学習するよう促す。
このようにしてFAは、外部補助データセットなしでトレーニングされた場合でも、CoOpと同じ数のトレーニング可能なパラメータを維持しながら、OOD検出の顕著な改善を達成することができる。
実験結果から,本手法は従来手法よりも常に優れていたことが確認された。
コードはhttps://github.com/0xFAFA/FAで入手できる。
関連論文リスト
- TagFog: Textual Anchor Guidance and Fake Outlier Generation for Visual Out-of-Distribution Detection [34.31570050254269]
オフ・オブ・ディストリビューション(OOD)検出は多くの現実世界のアプリケーションにおいて重要である。
本稿では,画像エンコーダのトレーニングを支援するために,単純なJigsawベースの偽OODデータと,ChatGPTによるID知識の記述からリッチセマンティック埋め込み(アンカー)を利用する新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T14:40:25Z) - What If the Input is Expanded in OOD Detection? [77.37433624869857]
Out-of-distriion (OOD) 検出は未知のクラスからのOOD入力を特定することを目的としている。
In-distriion(ID)データと区別するために,様々なスコアリング関数を提案する。
入力空間に異なる共通の汚職を用いるという、新しい視点を導入する。
論文 参考訳(メタデータ) (2024-10-24T06:47:28Z) - Envisioning Outlier Exposure by Large Language Models for Out-of-Distribution Detection [71.93411099797308]
オープンワールドシナリオに機械学習モデルをデプロイする場合、アウト・オブ・ディストリビューション(OOD)サンプルは不可欠である。
本稿では,大規模言語モデル(LLM)の専門知識と推論能力を活用して,この制約に対処することを提案する。
EOEは、遠、近、きめ細かいOOD検出など、さまざまなタスクに一般化することができる。
EOEは様々なOODタスクで最先端のパフォーマンスを実現し、ImageNet-1Kデータセットに効果的にスケールできる。
論文 参考訳(メタデータ) (2024-06-02T17:09:48Z) - Exploring Large Language Models for Multi-Modal Out-of-Distribution
Detection [67.68030805755679]
大きな言語モデル(LLM)は豊富な世界の知識をエンコードし、クラスごとに記述的な特徴を生成するよう促すことができる。
本稿では,LLMの選択的生成によるOOD検出性能向上のための世界知識の適用を提案する。
論文 参考訳(メタデータ) (2023-10-12T04:14:28Z) - Class Relevance Learning For Out-of-distribution Detection [16.029229052068]
本稿では,OOD検出に適したクラス関連学習手法を提案する。
本手法は,OODパイプライン内のクラス間関係を戦略的に活用し,総合的なクラス関連学習フレームワークを確立する。
論文 参考訳(メタデータ) (2023-09-21T08:38:21Z) - LoCoOp: Few-Shot Out-of-Distribution Detection via Prompt Learning [37.36999826208225]
本稿では,数発のアウト・オブ・ディストリビューション(OOD)検出のための新しい視覚言語プロンプト学習手法を提案する。
LoCoOpは、トレーニング中にCLIPローカル機能の一部をOOD機能として利用するOOD正規化を実行する。
LoCoOpは、既存のゼロショットと完全に教師付き検出方法より優れている。
論文 参考訳(メタデータ) (2023-06-02T06:33:08Z) - UNTER: A Unified Knowledge Interface for Enhancing Pre-trained Language
Models [100.4659557650775]
構造化知識と非構造化知識の両方を活用する統一的な視点を提供するために、統一知識インターフェイスUNTERを提案する。
どちらの形態の知識も注入され、UNTERは一連の知識駆動NLPタスクの継続的な改善を得る。
論文 参考訳(メタデータ) (2023-05-02T17:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。