論文の概要: VisTa: Visual-contextual and Text-augmented Zero-shot Object-level OOD Detection
- arxiv url: http://arxiv.org/abs/2503.22291v1
- Date: Fri, 28 Mar 2025 10:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:29:29.910302
- Title: VisTa: Visual-contextual and Text-augmented Zero-shot Object-level OOD Detection
- Title(参考訳): VisTa: ビジュアルコンテクストとテキストによるゼロショットオブジェクトレベルのOOD検出
- Authors: Bin Zhang, Xiaoyang Qu, Guokuan Li, Jiguang Wan, Jianzong Wang,
- Abstract要約: ゼロショットオブジェクトレベルのOOD検出にCLIPを適用する新しい手法を提案する。
本手法は,重要な文脈情報を保存し,IDとOODオブジェクトを区別する能力を向上させる。
- 参考スコア(独自算出の注目度): 22.200900846112805
- License:
- Abstract: As object detectors are increasingly deployed as black-box cloud services or pre-trained models with restricted access to the original training data, the challenge of zero-shot object-level out-of-distribution (OOD) detection arises. This task becomes crucial in ensuring the reliability of detectors in open-world settings. While existing methods have demonstrated success in image-level OOD detection using pre-trained vision-language models like CLIP, directly applying such models to object-level OOD detection presents challenges due to the loss of contextual information and reliance on image-level alignment. To tackle these challenges, we introduce a new method that leverages visual prompts and text-augmented in-distribution (ID) space construction to adapt CLIP for zero-shot object-level OOD detection. Our method preserves critical contextual information and improves the ability to differentiate between ID and OOD objects, achieving competitive performance across different benchmarks.
- Abstract(参考訳): オブジェクト検出器は、元のトレーニングデータへのアクセスを制限するブラックボックスクラウドサービスや事前訓練されたモデルとしてますますデプロイされるため、ゼロショットオブジェクトレベルのアウト・オブ・ディストリビューション(OOD)検出の課題が生じる。
このタスクは、オープンワールド環境における検出器の信頼性を確保するために重要となる。
既存の手法では、CLIPのような事前訓練された視覚言語モデルを用いた画像レベルのOOD検出が成功しているが、そのようなモデルをオブジェクトレベルのOOD検出に直接適用することは、文脈情報の欠如と画像レベルのアライメントへの依存による課題である。
これらの課題に対処するために、ゼロショットオブジェクトレベルのOOD検出にCLIPを適用するために、視覚的プロンプトとテキスト拡張インディストリビューション(ID)空間構築を活用する新しい手法を提案する。
本手法は,重要なコンテキスト情報を保存し,IDオブジェクトとOODオブジェクトを区別し,異なるベンチマーク間での競合性能を実現する。
関連論文リスト
- Can OOD Object Detectors Learn from Foundation Models? [56.03404530594071]
アウト・オブ・ディストリビューション(OOD)オブジェクト検出は、オープンセットのOODデータがないため、難しい課題である。
テキストから画像への生成モデルの最近の進歩に触発されて,大規模オープンセットデータを用いて訓練された生成モデルがOODサンプルを合成する可能性について検討した。
SyncOODは,大規模基盤モデルの能力を活用するシンプルなデータキュレーション手法である。
論文 参考訳(メタデータ) (2024-09-08T17:28:22Z) - TagOOD: A Novel Approach to Out-of-Distribution Detection via Vision-Language Representations and Class Center Learning [26.446233594630087]
視覚言語表現を用いたOOD検出のための新しいアプローチである textbfTagOOD を提案する。
TagOODは、抽出されたオブジェクトの特徴に基づいて軽量なネットワークをトレーニングし、代表的なクラスセンターを学習する。
これらの中心は、OOD検出における無関係な画像特徴の影響を最小限に抑え、INDオブジェクトクラスの中心的な傾向を捉えている。
論文 参考訳(メタデータ) (2024-08-28T06:37:59Z) - Envisioning Outlier Exposure by Large Language Models for Out-of-Distribution Detection [71.93411099797308]
オープンワールドシナリオに機械学習モデルをデプロイする場合、アウト・オブ・ディストリビューション(OOD)サンプルは不可欠である。
本稿では,大規模言語モデル(LLM)の専門知識と推論能力を活用して,この制約に対処することを提案する。
EOEは、遠、近、きめ細かいOOD検出など、さまざまなタスクに一般化することができる。
EOEは様々なOODタスクで最先端のパフォーマンスを実現し、ImageNet-1Kデータセットに効果的にスケールできる。
論文 参考訳(メタデータ) (2024-06-02T17:09:48Z) - Out-of-Distribution Detection Using Peer-Class Generated by Large Language Model [0.0]
アウト・オブ・ディストリビューション(OOD)検出は、マシンラーニングモデルの信頼性とセキュリティを確保するための重要なタスクである。
本稿では,ODPCと呼ばれる新しい手法を提案し,大規模言語モデルを用いてOODピア・セマンティクスのクラスを生成する。
5つのベンチマークデータセットの実験により,提案手法は最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-03-20T06:04:05Z) - Simple Image-level Classification Improves Open-vocabulary Object
Detection [27.131298903486474]
Open-Vocabulary Object Detection (OVOD) は、検出モデルが訓練された与えられたベースカテゴリのセットを超えて、新しいオブジェクトを検出することを目的としている。
近年のOVOD法は,CLIPなどの画像レベルの事前学習型視覚言語モデル(VLM)を,地域レベルの知識蒸留,地域レベルの学習,地域レベルの事前学習といった領域レベルのオブジェクト検出タスクに適応させることに重点を置いている。
これらの手法は、地域視覚概念の認識において顕著な性能を示してきたが、VLMの強力なグローバルシーン理解能力を活用するには弱い。
論文 参考訳(メタデータ) (2023-12-16T13:06:15Z) - Exploring Large Language Models for Multi-Modal Out-of-Distribution
Detection [67.68030805755679]
大きな言語モデル(LLM)は豊富な世界の知識をエンコードし、クラスごとに記述的な特徴を生成するよう促すことができる。
本稿では,LLMの選択的生成によるOOD検出性能向上のための世界知識の適用を提案する。
論文 参考訳(メタデータ) (2023-10-12T04:14:28Z) - From Global to Local: Multi-scale Out-of-distribution Detection [129.37607313927458]
アウト・オブ・ディストリビューション(OOD)検出は、イン・ディストリビューション(ID)トレーニングプロセス中にラベルが見られない未知のデータを検出することを目的としている。
近年の表現学習の進歩により,距離に基づくOOD検出がもたらされる。
グローバルな視覚情報と局所的な情報の両方を活用する第1のフレームワークであるマルチスケールOOD検出(MODE)を提案する。
論文 参考訳(メタデータ) (2023-08-20T11:56:25Z) - Unleashing Mask: Explore the Intrinsic Out-of-Distribution Detection
Capability [70.72426887518517]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイする際に、セキュアAIの必須の側面である。
本稿では,IDデータを用いた学習モデルのOOD識別能力を復元する新しい手法であるUnleashing Maskを提案する。
本手法では, マスクを用いて記憶した非定型サンプルを抽出し, モデルを微調整するか, 導入したマスクでプルーする。
論文 参考訳(メタデータ) (2023-06-06T14:23:34Z) - Building One-class Detector for Anything: Open-vocabulary Zero-shot OOD
Detection Using Text-image Models [23.302018871162186]
ゼロショット方式でテキスト画像事前学習モデルを利用する新しい1クラスオープンセットOOD検出器を提案する。
提案手法は,ドメイン内でないものを検出し,多様なOODを検出する柔軟性を提供する。
本手法は,すべてのベンチマークにおいて,従来の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-26T18:58:56Z) - Triggering Failures: Out-Of-Distribution detection by learning from
local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。
私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。
3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-03T17:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。