論文の概要: Detect Every Thing with Few Examples
- arxiv url: http://arxiv.org/abs/2309.12969v1
- Date: Fri, 22 Sep 2023 16:07:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 14:00:51.046292
- Title: Detect Every Thing with Few Examples
- Title(参考訳): わずかな例ですべてのものを検出する
- Authors: Xinyu Zhang, Yuting Wang, Abdeslam Boularias
- Abstract要約: 視覚のみのDINOv2バックボーンを利用するオープンセットオブジェクト検出器であるDE-ViTを導入し、言語の代わりにサンプル画像を用いて新しいカテゴリを学習する。
我々は、クラスごとの推論をバイパスしながら、複数の分類タスクを二分分類タスクに変換し、ローカライゼーションのための新しい領域伝搬手法を提案する。
- 参考スコア(独自算出の注目度): 25.312020775388746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-set object detection aims at detecting arbitrary categories beyond those
seen during training. Most recent advancements have adopted the open-vocabulary
paradigm, utilizing vision-language backbones to represent categories with
language. In this paper, we introduce DE-ViT, an open-set object detector that
employs vision-only DINOv2 backbones and learns new categories through example
images instead of language. To improve general detection ability, we transform
multi-classification tasks into binary classification tasks while bypassing
per-class inference, and propose a novel region propagation technique for
localization. We evaluate DE-ViT on open-vocabulary, few-shot, and one-shot
object detection benchmark with COCO and LVIS. For COCO, DE-ViT outperforms the
open-vocabulary SoTA by 6.9 AP50 and achieves 50 AP50 in novel classes. DE-ViT
surpasses the few-shot SoTA by 15 mAP on 10-shot and 7.2 mAP on 30-shot and
one-shot SoTA by 2.8 AP50. For LVIS, DE-ViT outperforms the open-vocabulary
SoTA by 2.2 mask AP and reaches 34.3 mask APr. Code is available at
https://github.com/mlzxy/devit.
- Abstract(参考訳): オープンセットオブジェクト検出は、トレーニング中に見られる以上の任意のカテゴリを検出することを目的としている。
最近の進歩はオープン語彙パラダイムを採用しており、視覚言語バックボーンを利用して言語によるカテゴリを表現している。
本稿では,視覚のみのDINOv2バックボーンを用いたオープンセットオブジェクト検出器であるDE-ViTを紹介し,言語の代わりにサンプル画像を用いて新しいカテゴリを学習する。
一般化検出能力を向上させるために,クラスごとの推論をバイパスしながら,複数分類タスクを二分分類タスクに変換する手法を提案する。
オープンボキャブラリ,少数ショット,ワンショットオブジェクト検出ベンチマークにおいて,COCO,LVISを用いてDe-ViTを評価する。
COCOでは、De-ViTはオープン語彙のSoTAを6.9 AP50で上回り、新しいクラスでは50 AP50を達成した。
DE-ViTは10ショットで15mAP、30ショットで7.2mAP、1ショットで2.8AP50のSoTAを上回る。
LVISでは、De-ViTは2.2マスクAPでオープン語彙SoTAより優れ、34.3マスクAPrに達する。
コードはhttps://github.com/mlzxy/devitで入手できる。
関連論文リスト
- DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM [81.75988648572347]
DetToolChainはマルチモーダル大言語モデル(MLLM)のゼロショットオブジェクト検出能力を解き放つ新しいパラダイムである。
提案手法は,高精度検出にヒントを得た検出プロンプトツールキットと,これらのプロンプトを実装するための新しいChain-of-Thoughtから構成される。
DetToolChainを用いたGPT-4Vは,オープン語彙検出のための新しいクラスセットにおいて,最先端のオブジェクト検出器を+21.5%AP50で改善することを示す。
論文 参考訳(メタデータ) (2024-03-19T06:54:33Z) - Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector [72.05791402494727]
本稿では,CD-FSODを用いたクロスドメイン小ショット検出法について検討する。
最小限のラベル付き例で、新しいドメインのための正確なオブジェクト検出器を開発することを目的としている。
論文 参考訳(メタデータ) (2024-02-05T15:25:32Z) - Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly
Detection [133.93365706990178]
本研究は,最近提案された多クラス非教師付き異常検出(MUAD)タスクについて検討する。
通常のイメージと異常なイメージの両方を複数のクラスで同時にテストしながら、トレーニングには通常のイメージしか必要としない。
単純なアーキテクチャを持つ平易な視覚変換器(ViT)は、複数のドメインで有効であることが示されている。
論文 参考訳(メタデータ) (2023-12-12T18:28:59Z) - TIDE: Test Time Few Shot Object Detection [11.036762620105383]
Few-shot Object Detection (FSOD) は、対象ドメイン内の新しいカテゴリの限られたオブジェクトインスタンスから意味的知識を抽出することを目的としている。
FSODの最近の進歩は、メタ学習やデータ拡張を通じて、いくつかのオブジェクトに基づいてベースモデルを微調整することに焦点を当てている。
我々は、新しいFSODタスクを定式化し、TIDE(Test TIme Few Shot Detection)と呼ぶ。
論文 参考訳(メタデータ) (2023-11-30T09:00:44Z) - YOLOV: Making Still Image Object Detectors Great at Video Object
Detection [23.039968987772543]
映像オブジェクト検出(VID)は,映像の外観のばらつきやフレームの多様さにより困難である。
この研究は、問題に対処するための単純だが効果的な戦略を提案する。
我々のYOLOXベースのモデルは、有望なパフォーマンスを達成することができる(例えば、1つの2080Ti GPU上のImageNet VIDデータセット上で、30FPS以上の87.5% AP50)。
論文 参考訳(メタデータ) (2022-08-20T14:12:06Z) - Incremental-DETR: Incremental Few-Shot Object Detection via
Self-Supervised Learning [60.64535309016623]
本稿では,DeTRオブジェクト検出器上での微調整および自己教師型学習によるインクリメンタル・デクリメンタル・デクリメンタル・デクリメンタル・オブジェクト検出を提案する。
まず,DeTRのクラス固有のコンポーネントを自己監督で微調整する。
さらに,DeTRのクラス固有のコンポーネントに知識蒸留を施した数発の微調整戦略を導入し,破滅的な忘れを伴わずに新しいクラスを検出するネットワークを奨励する。
論文 参考訳(メタデータ) (2022-05-09T05:08:08Z) - Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit
Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。
局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。
これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文 参考訳(メタデータ) (2021-10-26T03:09:57Z) - Meta Faster R-CNN: Towards Accurate Few-Shot Object Detection with
Attentive Feature Alignment [33.446875089255876]
Few-shot Object Detection (FSOD) は、少数の例でオブジェクトを検出することを目的としている。
本稿では,データ不足ベースクラスから学習したメタ知識を新しいクラスに転送することで,メタラーニングに基づくマイショットオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T19:01:27Z) - Any-Shot Object Detection [81.88153407655334]
「アニーショット検出」とは、全く見えず、数発のカテゴリが推論中に同時に共起できる場所である。
我々は、ゼロショットと少数ショットの両方のオブジェクトクラスを同時に検出できる、統合された任意のショット検出モデルを提案する。
我々のフレームワークは、ゼロショット検出とFewショット検出タスクにのみ使用できる。
論文 参考訳(メタデータ) (2020-03-16T03:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。