論文の概要: Recent Advances in Out-of-Distribution Detection with CLIP-Like Models: A Survey
- arxiv url: http://arxiv.org/abs/2505.02448v1
- Date: Mon, 05 May 2025 08:22:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.600017
- Title: Recent Advances in Out-of-Distribution Detection with CLIP-Like Models: A Survey
- Title(参考訳): CLIP様モデルを用いたアウト・オブ・ディストリビューション検出の最近の進歩
- Authors: Chaohua Li, Enhao Zhang, Chuanxing Geng, Songcan Chen,
- Abstract要約: Out-of-distriion Detection (OOD)は、テスト中のIDデータと分散的に異なるサンプルを識別するようモデルを訓練する現実世界のアプリケーションにとって重要なタスクである。
近年のAIの進歩、特にCLIPのようなビジョンランゲージモデル(VLM)は、従来の単モード画像検出器からマルチモーダル画像テキスト検出器にシフトすることで、OOD検出に革命をもたらした。
CLIPのクロスモーダルな性質に合わせて,画像とテキストの両方に根ざした新たな分類フレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.467732819969935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Out-of-distribution detection (OOD) is a pivotal task for real-world applications that trains models to identify samples that are distributionally different from the in-distribution (ID) data during testing. Recent advances in AI, particularly Vision-Language Models (VLMs) like CLIP, have revolutionized OOD detection by shifting from traditional unimodal image detectors to multimodal image-text detectors. This shift has inspired extensive research; however, existing categorization schemes (e.g., few- or zero-shot types) still rely solely on the availability of ID images, adhering to a unimodal paradigm. To better align with CLIP's cross-modal nature, we propose a new categorization framework rooted in both image and text modalities. Specifically, we categorize existing methods based on how visual and textual information of OOD data is utilized within image + text modalities, and further divide them into four groups: OOD Images (i.e., outliers) Seen or Unseen, and OOD Texts (i.e., learnable vectors or class names) Known or Unknown, across two training strategies (i.e., train-free or training-required). More importantly, we discuss open problems in CLIP-like OOD detection and highlight promising directions for future research, including cross-domain integration, practical applications, and theoretical understanding.
- Abstract(参考訳): Out-of-distriion Detection (OOD)は、テスト中のIDデータと分散的に異なるサンプルを識別するようモデルを訓練する現実世界のアプリケーションにとって重要なタスクである。
近年のAIの進歩、特にCLIPのようなビジョンランゲージモデル(VLM)は、従来の単モード画像検出器からマルチモーダル画像テキスト検出器にシフトすることで、OOD検出に革命をもたらした。
この変化は広範な研究に影響を与えたが、既存の分類体系(例: 少数またはゼロショット型)は依然としてIDイメージの可用性にのみ依存しており、一様パラダイムに固執している。
CLIPのクロスモーダルな性質に合わせて,画像とテキストの両方に根ざした新たな分類フレームワークを提案する。
具体的には,OODデータの視覚的およびテキスト的情報を画像とテキストのモダリティ内でどのように活用するかに基づいて,既存の手法を分類し,OOD画像(アウトリージ)とSeen,Unseen,OODテキスト(学習可能なベクトルやクラス名)の4つのグループに分類する。
さらに重要なことは、CLIPのようなOOD検出のオープンな問題について議論し、クロスドメイン統合、実践的応用、理論的理解など、将来の研究に向けた有望な方向性を強調します。
関連論文リスト
- FodFoM: Fake Outlier Data by Foundation Models Creates Stronger Visual Out-of-Distribution Detector [25.224930928724326]
オープンソースのアプリケーションに機械学習モデルをデプロイする際には、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
本稿では,新しいOOD検出フレームワークFodFoMを提案する。
最新のOOD検出性能は、複数のベンチマークで実現されている。
論文 参考訳(メタデータ) (2024-11-22T17:29:52Z) - Envisioning Outlier Exposure by Large Language Models for Out-of-Distribution Detection [71.93411099797308]
オープンワールドシナリオに機械学習モデルをデプロイする場合、アウト・オブ・ディストリビューション(OOD)サンプルは不可欠である。
本稿では,大規模言語モデル(LLM)の専門知識と推論能力を活用して,この制約に対処することを提案する。
EOEは、遠、近、きめ細かいOOD検出など、さまざまなタスクに一般化することができる。
EOEは様々なOODタスクで最先端のパフォーマンスを実現し、ImageNet-1Kデータセットに効果的にスケールできる。
論文 参考訳(メタデータ) (2024-06-02T17:09:48Z) - Negative Label Guided OOD Detection with Pretrained Vision-Language Models [96.67087734472912]
Out-of-distriion (OOD) は未知のクラスからサンプルを識別することを目的としている。
我々は,大規模なコーパスデータベースから大量の負のラベルを抽出する,NegLabelと呼ばれる新しいポストホックOOD検出手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T09:19:52Z) - Out-of-Distribution Detection Using Peer-Class Generated by Large Language Model [0.0]
アウト・オブ・ディストリビューション(OOD)検出は、マシンラーニングモデルの信頼性とセキュリティを確保するための重要なタスクである。
本稿では,ODPCと呼ばれる新しい手法を提案し,大規模言語モデルを用いてOODピア・セマンティクスのクラスを生成する。
5つのベンチマークデータセットの実験により,提案手法は最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-03-20T06:04:05Z) - Exploring Large Language Models for Multi-Modal Out-of-Distribution
Detection [67.68030805755679]
大きな言語モデル(LLM)は豊富な世界の知識をエンコードし、クラスごとに記述的な特徴を生成するよう促すことができる。
本稿では,LLMの選択的生成によるOOD検出性能向上のための世界知識の適用を提案する。
論文 参考訳(メタデータ) (2023-10-12T04:14:28Z) - Class Relevance Learning For Out-of-distribution Detection [16.029229052068]
本稿では,OOD検出に適したクラス関連学習手法を提案する。
本手法は,OODパイプライン内のクラス間関係を戦略的に活用し,総合的なクラス関連学習フレームワークを確立する。
論文 参考訳(メタデータ) (2023-09-21T08:38:21Z) - From Global to Local: Multi-scale Out-of-distribution Detection [129.37607313927458]
アウト・オブ・ディストリビューション(OOD)検出は、イン・ディストリビューション(ID)トレーニングプロセス中にラベルが見られない未知のデータを検出することを目的としている。
近年の表現学習の進歩により,距離に基づくOOD検出がもたらされる。
グローバルな視覚情報と局所的な情報の両方を活用する第1のフレームワークであるマルチスケールOOD検出(MODE)を提案する。
論文 参考訳(メタデータ) (2023-08-20T11:56:25Z) - General-Purpose Multi-Modal OOD Detection Framework [5.287829685181842]
アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)システムの安全性と信頼性を保証するために重要なトレーニングデータとは異なるテストサンプルを特定する。
本稿では,2値分類器とコントラスト学習コンポーネントを組み合わせた,汎用的な弱教師付きOOD検出フレームワークWOODを提案する。
提案したWOODモデルを複数の実世界のデータセット上で評価し、実験結果により、WOODモデルがマルチモーダルOOD検出の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-24T18:50:49Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Triggering Failures: Out-Of-Distribution detection by learning from
local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。
私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。
3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-03T17:09:56Z) - OODformer: Out-Of-Distribution Detection Transformer [15.17006322500865]
現実世界の安全クリティカルなアプリケーションでは、新しいデータポイントがOODであるかどうかを認識することが重要です。
本稿では,OODformer というファースト・オブ・ザ・キンドな OOD 検出アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-07-19T15:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。