論文の概要: OOVDet: Low-Density Prior Learning for Zero-Shot Out-of-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2601.22685v1
- Date: Fri, 30 Jan 2026 07:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.309196
- Title: OOVDet: Low-Density Prior Learning for Zero-Shot Out-of-Vocabulary Object Detection
- Title(参考訳): OOVDet:Zero-Shot Out-of-Vocabulary Object Detectionのための低密度事前学習
- Authors: Binyi Su, Chenghao Huang, Haiyong Chen,
- Abstract要約: ゼロショットアウトオブボキャブラリ検出(ZS-OOVD)は、ゼロショット推論で提供されるインボキャブラリカテゴリのオブジェクトを正確に認識することを目的としている。
以前の方法はIVクラスを過度に適合させる傾向があり、OOVまたは未定義のクラスは高い信頼スコアを持つIVクラスと誤分類される。
本稿では、ゼロショットシーンにおける未定義クラスを確実に拒否しつつ、事前定義クラスを効果的に検出する新しいフレームワークであるゼロショットOOV検出器(OOVDet)を提案する。
- 参考スコア(独自算出の注目度): 4.718022508213715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot out-of-vocabulary detection (ZS-OOVD) aims to accurately recognize objects of in-vocabulary (IV) categories provided at zero-shot inference, while simultaneously rejecting undefined ones (out-of-vocabulary, OOV) that lack corresponding category prompts. However, previous methods are prone to overfitting the IV classes, leading to the OOV or undefined classes being misclassified as IV ones with a high confidence score. To address this issue, this paper proposes a zero-shot OOV detector (OOVDet), a novel framework that effectively detects predefined classes while reliably rejecting undefined ones in zero-shot scenes. Specifically, due to the model's lack of prior knowledge about the distribution of OOV data, we synthesize region-level OOV prompts by sampling from the low-likelihood regions of the class-conditional Gaussian distributions in the hidden space, motivated by the assumption that unknown semantics are more likely to emerge in low-density areas of the latent space. For OOV images, we further propose a Dirichlet-based gradient attribution mechanism to mine pseudo-OOV image samples, where the attribution gradients are interpreted as Dirichlet evidence to estimate prediction uncertainty, and samples with high uncertainty are selected as pseudo-OOV images. Building on these synthesized OOV prompts and pseudo-OOV images, we construct the OOV decision boundary through a low-density prior constraint, which regularizes the optimization of OOV classes using Gaussian kernel density estimation in accordance with the above assumption. Experimental results show that our method significantly improves the OOV detection performance in zero-shot scenes. The code is available at https://github.com/binyisu/OOV-detector.
- Abstract(参考訳): Zero-shot Out-vocabulary Detection (ZS-OOVD)は、ゼロショット推論で提供されるin-vocabulary(IV)カテゴリのオブジェクトを正確に認識し、対応するカテゴリプロンプトを持たない未定義のオブジェクト(out-of-vocabulary, OOV)を同時に拒否することを目的としている。
しかし、従来の方法はIVクラスを過度に適合させる傾向があり、OOVクラスや未定義クラスは高い信頼スコアを持つIVクラスと誤分類される。
そこで本研究では,ゼロショットシーンにおける未定義クラスを確実に拒否しながら,事前定義クラスを効果的に検出する,ゼロショットOOV検出器(OOVDet)を提案する。
具体的には、モデルがOOVデータの分布に関する事前知識を欠いているため、隠れ空間におけるクラス条件ガウス分布の低次領域からサンプリングすることで、領域レベルのOOVプロンプトを合成する。
さらに、擬似OOV画像サンプルをマイニングするためのディリクレに基づく勾配属性機構を提案し、その帰属勾配を予測の不確実性を推定するためのディリクレ証拠として解釈し、疑似OOV画像として高い不確実性を有する試料を選択する。
これらの合成されたOOVプロンプトと擬似OOV画像に基づいて、低密度事前制約によりOOV決定境界を構築し、上記の仮定に従ってガウス核密度推定を用いてOOVクラスの最適化を規則化する。
実験の結果,ゼロショットシーンにおけるOOV検出性能は有意に向上した。
コードはhttps://github.com/binyisu/OOV-detector.comから入手できる。
関連論文リスト
- Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction [80.67150791183126]
事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示したが、それでも高密度予測タスクでは性能が劣っている。
提案するDenseVLMは,非バイアスの領域言語アライメントを,強力な事前学習型VLM表現から学習するためのフレームワークである。
DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることができることを示す。
論文 参考訳(メタデータ) (2024-12-09T06:34:23Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Boosting Few-Shot Open-Set Object Detection via Prompt Learning and Robust Decision Boundary [10.054397736100245]
FOOD(Open-set Object Detection)は、多くのオープンワールドシナリオにおいて課題となる。
訓練サンプルが不足している未知の物体を拒絶しながら、既知の物体を検出するためにオープンセット検出器を訓練することを目的としている。
本手法は,従来の最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-06-26T15:48:24Z) - Towards the Uncharted: Density-Descending Feature Perturbation for Semi-supervised Semantic Segmentation [51.66997548477913]
本稿では,DDFP(Dedentity-Descending Feature Perturbation)という特徴レベルの一貫性学習フレームワークを提案する。
半教師付き学習における低密度分離仮定にインスパイアされた私たちの重要な洞察は、特徴密度はセグメンテーション分類器が探索する最も有望な方向の光を放つことができるということである。
提案したDFFPは、機能レベルの摂動に関する他の設計よりも優れており、Pascal VOCとCityscapesのデータセット上でのアートパフォーマンスの状態を示している。
論文 参考訳(メタデータ) (2024-03-11T06:59:05Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Pixel-wise Gradient Uncertainty for Convolutional Neural Networks
applied to Out-of-Distribution Segmentation [0.43512163406552007]
本稿では,推定時に効率よく計算できる画素単位の損失勾配から不確実点を求める手法を提案する。
本実験は,提案手法が誤った画素分類を識別し,無視可能な計算オーバーヘッドで予測品質を推定する能力を示す。
論文 参考訳(メタデータ) (2023-03-13T08:37:59Z) - UQGAN: A Unified Model for Uncertainty Quantification of Deep
Classifiers trained via Conditional GANs [9.496524884855559]
本稿では,GAN(Generative Adversarial Network)に基づく画像分類におけるディープニューラルネットワークの不確実性の定量化手法を提案する。
GAN の生成した OoD の例で分散データの全体を保護する代わりに,条件付き GAN によって生成されたクラスを別々に保護する。
特に、最先端のGAN学習に基づく分類器のOoD検出とFP検出性能を改善した。
論文 参考訳(メタデータ) (2022-01-31T14:42:35Z) - Generalized Zero-Shot Learning via VAE-Conditioned Generative Flow [83.27681781274406]
一般化されたゼロショット学習は、意味的記述から視覚的表現へ知識を移すことによって、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
近年のGZSLはデータ不足問題として定式化されており、主にGANやVAEを採用して、目に見えないクラスの視覚的特徴を生成する。
GZSLのための条件付き生成フロー,すなわちVAE-Conditioned Generative Flow (VAE-cFlow)を提案する。
論文 参考訳(メタデータ) (2020-09-01T09:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。