論文の概要: ProxyDet: Synthesizing Proxy Novel Classes via Classwise Mixup for
Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2312.07266v2
- Date: Tue, 19 Dec 2023 08:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 21:52:01.436062
- Title: ProxyDet: Synthesizing Proxy Novel Classes via Classwise Mixup for
Open-Vocabulary Object Detection
- Title(参考訳): proxydet: オープンボカブラリオブジェクト検出のためのクラス別ミックスアップによるプロキシ新規クラス合成
- Authors: Joonhyun Jeong, Geondo Park, Jayeon Yoo, Hyungsik Jung, Heesu Kim
- Abstract要約: Open-vocabulary Object Detection (OVOD)は、トレーニングセットにカテゴリが含まれていない新しいオブジェクトを認識することを目的としている。
本稿では,新しいクラス全体の分布を一般化する手法を提案する。
- 参考スコア(独自算出の注目度): 7.122652901894367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary object detection (OVOD) aims to recognize novel objects whose
categories are not included in the training set. In order to classify these
unseen classes during training, many OVOD frameworks leverage the zero-shot
capability of largely pretrained vision and language models, such as CLIP. To
further improve generalization on the unseen novel classes, several approaches
proposed to additionally train with pseudo region labeling on the external data
sources that contain a substantial number of novel category labels beyond the
existing training data. Albeit its simplicity, these pseudo-labeling methods
still exhibit limited improvement with regard to the truly unseen novel classes
that were not pseudo-labeled. In this paper, we present a novel, yet simple
technique that helps generalization on the overall distribution of novel
classes. Inspired by our observation that numerous novel classes reside within
the convex hull constructed by the base (seen) classes in the CLIP embedding
space, we propose to synthesize proxy-novel classes approximating novel classes
via linear mixup between a pair of base classes. By training our detector with
these synthetic proxy-novel classes, we effectively explore the embedding space
of novel classes. The experimental results on various OVOD benchmarks such as
LVIS and COCO demonstrate superior performance on novel classes compared to the
other state-of-the-art methods. Code is available at
https://github.com/clovaai/ProxyDet.
- Abstract(参考訳): open-vocabulary object detection (ovod)は、トレーニングセットにカテゴリが含まれていない新しいオブジェクトを認識することを目的としている。
トレーニング中にこれらの見えないクラスを分類するために、多くのOVODフレームワークは、CLIPのような主に事前訓練されたビジョンと言語モデルのゼロショット機能を利用する。
未確認の新規クラスにおける一般化をさらに向上するため,既存のトレーニングデータ以外にも,かなりの数の新規カテゴリラベルを含む外部データソースに擬似領域ラベルを付加する手法が提案されている。
その単純さにもかかわらず、これらの擬似ラベル付け手法は、疑似ラベル化されていない真に目に見えない新しいクラスに関して、依然として限定的な改善を示している。
本稿では,新しいクラス全体の分布を一般化するための新しい,かつ単純な手法を提案する。
クリップ埋め込み空間における基底 (seen) クラスによって構築された凸包内に多数の新規クラスが存在するという観測に触発されて, 1対の基底クラス間の線形混合により新規クラスを近似するプロキシ・ノベルクラスを合成する。
これらの合成プロキシーノベルクラスで検出器を訓練することにより、新しいクラスの埋め込み空間を効果的に探索する。
LVIS や COCO などの様々な OVOD ベンチマークによる実験結果は、他の最先端手法と比較して、新しいクラスにおいて優れた性能を示した。
コードはhttps://github.com/clovaai/proxydetで入手できる。
関連論文リスト
- Semantic Enhanced Few-shot Object Detection [37.715912401900745]
本稿では, セマンティックな埋め込みを利用してより優れた検出を行う, 微調整に基づくFSODフレームワークを提案する。
提案手法は,各新規クラスが類似の基底クラスと混同されることなく,コンパクトな特徴空間を構築することを可能にする。
論文 参考訳(メタデータ) (2024-06-19T12:40:55Z) - Organizing Background to Explore Latent Classes for Incremental Few-shot Semantic Segmentation [7.570798966278471]
インクリメンタルなFew-shot Semantic COCO(iFSS)は、トレーニング済みのセグメンテーションモデルを、いくつかの注釈付きイメージを通じて新しいクラスに拡張することである。
我々は,OINetと呼ばれる背景埋め込み空間 textbfOrganization とプロトタイプ textbfInherit Network を提案する。
論文 参考訳(メタデータ) (2024-05-29T23:22:12Z) - Open-Vocabulary Object Detection with Meta Prompt Representation and Instance Contrastive Optimization [63.66349334291372]
本稿ではメタプロンプトとインスタンスコントラスト学習(MIC)方式を用いたフレームワークを提案する。
まず、クラスとバックグラウンドのプロンプトを学習するプロンプトが新しいクラスに一般化するのを助けるために、新しいクラスエマージシナリオをシミュレートする。
第二に、クラス内コンパクト性とクラス間分離を促進するためのインスタンスレベルのコントラスト戦略を設計し、新しいクラスオブジェクトに対する検出器の一般化に寄与する。
論文 参考訳(メタデータ) (2024-03-14T14:25:10Z) - Few-Shot Class-Incremental Learning via Training-Free Prototype
Calibration [67.69532794049445]
既存のメソッドでは、新しいクラスのサンプルをベースクラスに誤分類する傾向があり、新しいクラスのパフォーマンスが低下する。
我々は,新しいクラスの識別性を高めるため,簡易かつ効果的なトレーニング-フレア・カロブラシアン (TEEN) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-08T18:24:08Z) - Class-incremental Novel Class Discovery [76.35226130521758]
クラス増進型新規クラス発見(class-iNCD)の課題について検討する。
基本クラスに関する過去の情報を忘れないようにする,クラスiNCDのための新しい手法を提案する。
3つの共通ベンチマークで実施した実験により,本手法が最先端の手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-07-18T13:49:27Z) - Demystifying the Base and Novel Performances for Few-shot
Class-incremental Learning [15.762281194023462]
FSCIL(Few-shot class-incremental Learning)は、目に見えない新しいクラスがほとんどサンプルを持って絶えずやってくる現実のシナリオに対処している。
先行知識を忘れずに新しいクラスを認識するモデルを開発する必要がある。
本手法は,高度な最先端アルゴリズムと同等の性能を有することを示す。
論文 参考訳(メタデータ) (2022-06-18T00:39:47Z) - Few-Shot Object Detection via Association and DIscrimination [83.8472428718097]
AssociationとDIscriminationによるオブジェクト検出は、新しいクラスごとに2つのステップで識別可能な特徴空間を構築している。
Pascal VOCとMS-COCOデータセットの実験では、FADIは新しいSOTAパフォーマンスを実現し、ショット/スプリットのベースラインを+18.7で大幅に改善した。
論文 参考訳(メタデータ) (2021-11-23T05:04:06Z) - Bridging Non Co-occurrence with Unlabeled In-the-wild Data for
Incremental Object Detection [56.22467011292147]
物体検出における破滅的忘れを緩和するために,いくつかの漸進的学習法が提案されている。
有効性にもかかわらず、これらの手法は新規クラスのトレーニングデータにラベルのないベースクラスの共起を必要とする。
そこで本研究では,新たな授業の訓練において,欠落した基本クラスが原因で生じる非発生を補うために,未ラベルのインザ・ザ・ワイルドデータを使用することを提案する。
論文 参考訳(メタデータ) (2021-10-28T10:57:25Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。