論文の概要: SimLabel: Consistency-Guided OOD Detection with Pretrained Vision-Language Models
- arxiv url: http://arxiv.org/abs/2501.11485v1
- Date: Mon, 20 Jan 2025 13:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:22:32.488947
- Title: SimLabel: Consistency-Guided OOD Detection with Pretrained Vision-Language Models
- Title(参考訳): SimLabel: 事前学習型視覚言語モデルを用いた一貫性誘導OOD検出
- Authors: Shu Zou, Xinyu Tian, Qinyu Zhao, Zhaoyuan Yang, Jing Zhang,
- Abstract要約: 視覚言語モデル(VLM)における意味関連IDラベル間の画像テキスト理解能力について検討する。
我々は,IDとアウト・オブ・ディストリビューション(OOD)の分離性を高めるために,SimLabelと呼ばれる新しいポストホック戦略を提案する。
本実験は,様々なゼロショットOOD検出ベンチマークにおいて,SimLabelの優れた性能を示す。
- 参考スコア(独自算出の注目度): 7.90233294809002
- License:
- Abstract: Detecting out-of-distribution (OOD) data is crucial in real-world machine learning applications, particularly in safety-critical domains. Existing methods often leverage language information from vision-language models (VLMs) to enhance OOD detection by improving confidence estimation through rich class-wise text information. However, when building OOD detection score upon on in-distribution (ID) text-image affinity, existing works either focus on each ID class or whole ID label sets, overlooking inherent ID classes' connection. We find that the semantic information across different ID classes is beneficial for effective OOD detection. We thus investigate the ability of image-text comprehension among different semantic-related ID labels in VLMs and propose a novel post-hoc strategy called SimLabel. SimLabel enhances the separability between ID and OOD samples by establishing a more robust image-class similarity metric that considers consistency over a set of similar class labels. Extensive experiments demonstrate the superior performance of SimLabel on various zero-shot OOD detection benchmarks. The proposed model is also extended to various VLM-backbones, demonstrating its good generalization ability. Our demonstration and implementation codes are available at: https://github.com/ShuZou-1/SimLabel.
- Abstract(参考訳): オフ・オブ・ディストリビューション(OOD)データの検出は、特にセーフティクリティカルドメインにおいて、現実世界の機械学習アプリケーションにおいて不可欠である。
既存の手法はしばしば視覚言語モデル(VLM)からの言語情報を活用し、リッチなクラスワイドテキスト情報による信頼度推定を改善することでOOD検出を強化する。
しかし、ID(In-distriion)テキストイメージ親和性に基づいてOOD検出スコアを構築する場合、既存の作業は、固有のIDクラスの接続を見越して、各IDクラスまたはIDラベルセット全体に焦点を当てる。
異なるIDクラスにまたがる意味情報はOOD検出に有効であることがわかった。
そこで本研究では,VLMにおける意味関連IDラベル間の画像テキスト理解能力について検討し,SimLabelと呼ばれるポストホック戦略を提案する。
SimLabel は ID と OOD サンプルの分離性を高め、類似したクラスラベルの集合に対する一貫性を考慮に入れた、より堅牢なイメージクラスの類似度メトリックを確立する。
大規模な実験は、様々なゼロショットOOD検出ベンチマークにおいてSimLabelの優れた性能を示す。
提案モデルは様々なVLMバックボーンにも拡張され、その優れた一般化能力を示す。
私たちのデモコードと実装コードは、https://github.com/ShuZou-1/SimLabel.comで公開されています。
関連論文リスト
- Conjugated Semantic Pool Improves OOD Detection with Pre-trained Vision-Language Models [70.82728812001807]
ゼロショット・アウト・オブ・ディストリビューション(OOD)検出のための簡単なパイプラインでは、広範なセマンティックプールから潜在的OODラベルを選択する必要がある。
性能向上にはセマンティックプールの拡張が必要であると理論化します。
我々は,CSPによるOODラベル候補の拡大が要件を満たし,FPR95において既存の作品の7.89%を上回っていることを示す。
論文 参考訳(メタデータ) (2024-10-11T08:24:11Z) - Zero-Shot Out-of-Distribution Detection with Outlier Label Exposure [23.266183020469065]
Outlier Label Exposure (OLE)は、補助的なoutlierクラスラベルを用いたゼロショットOOD検出を強化するアプローチである。
OLE は検出性能を大幅に改善し,大規模 OOD およびハード OOD 検出ベンチマークの最先端性能を向上する。
論文 参考訳(メタデータ) (2024-06-03T10:07:21Z) - Envisioning Outlier Exposure by Large Language Models for Out-of-Distribution Detection [71.93411099797308]
オープンワールドシナリオに機械学習モデルをデプロイする場合、アウト・オブ・ディストリビューション(OOD)サンプルは不可欠である。
本稿では,大規模言語モデル(LLM)の専門知識と推論能力を活用して,この制約に対処することを提案する。
EOEは、遠、近、きめ細かいOOD検出など、さまざまなタスクに一般化することができる。
EOEは様々なOODタスクで最先端のパフォーマンスを実現し、ImageNet-1Kデータセットに効果的にスケールできる。
論文 参考訳(メタデータ) (2024-06-02T17:09:48Z) - Learning Transferable Negative Prompts for Out-of-Distribution Detection [22.983892817676495]
負のプロンプトを学習するための新しいOOD検出手法「NegPrompt」を提案する。
外部の外れ値データに依存することなく、IDデータのみでそのような負のプロンプトを学習する。
さまざまなImageNetベンチマークの実験では、NegPromptが最先端のプロンプトベースのOOD検出方法を上回ることが示されている。
論文 参考訳(メタデータ) (2024-04-04T07:07:34Z) - Negative Label Guided OOD Detection with Pretrained Vision-Language Models [96.67087734472912]
Out-of-distriion (OOD) は未知のクラスからサンプルを識別することを目的としている。
我々は,大規模なコーパスデータベースから大量の負のラベルを抽出する,NegLabelと呼ばれる新しいポストホックOOD検出手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T09:19:52Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - Exploring Large Language Models for Multi-Modal Out-of-Distribution
Detection [67.68030805755679]
大きな言語モデル(LLM)は豊富な世界の知識をエンコードし、クラスごとに記述的な特徴を生成するよう促すことができる。
本稿では,LLMの選択的生成によるOOD検出性能向上のための世界知識の適用を提案する。
論文 参考訳(メタデータ) (2023-10-12T04:14:28Z) - From Global to Local: Multi-scale Out-of-distribution Detection [129.37607313927458]
アウト・オブ・ディストリビューション(OOD)検出は、イン・ディストリビューション(ID)トレーニングプロセス中にラベルが見られない未知のデータを検出することを目的としている。
近年の表現学習の進歩により,距離に基づくOOD検出がもたらされる。
グローバルな視覚情報と局所的な情報の両方を活用する第1のフレームワークであるマルチスケールOOD検出(MODE)を提案する。
論文 参考訳(メタデータ) (2023-08-20T11:56:25Z) - LoCoOp: Few-Shot Out-of-Distribution Detection via Prompt Learning [37.36999826208225]
本稿では,数発のアウト・オブ・ディストリビューション(OOD)検出のための新しい視覚言語プロンプト学習手法を提案する。
LoCoOpは、トレーニング中にCLIPローカル機能の一部をOOD機能として利用するOOD正規化を実行する。
LoCoOpは、既存のゼロショットと完全に教師付き検出方法より優れている。
論文 参考訳(メタデータ) (2023-06-02T06:33:08Z) - Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge
Transfer [55.885555581039895]
マルチラベルゼロショット学習(ML-ZSL)は、事前訓練されたテキストラベル埋め込みによる知識の伝達に焦点を当てている。
マルチラベル分類のためのMKT(Multimodal Knowledge Transfer)と呼ばれる新しいオープン語彙フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T08:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。