論文の概要: Detect Everything with Few Examples
- arxiv url: http://arxiv.org/abs/2309.12969v3
- Date: Thu, 7 Mar 2024 12:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 17:57:34.757568
- Title: Detect Everything with Few Examples
- Title(参考訳): わずかな例で全てを検出する
- Authors: Xinyu Zhang, Yuting Wang, Abdeslam Boularias
- Abstract要約: 少数のオブジェクト検出は、いくつかのサンプル画像から新しいカテゴリを検出することを目的としている。
近年の手法は、より広範な適用を禁じる複雑な手順による微調整戦略に重点を置いている。
我々は、微調整を必要とせず、数発の物体検出器であるDE-ViTを導入する。
- 参考スコア(独自算出の注目度): 25.312020775388746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot object detection aims at detecting novel categories given a few
example images. Recent methods focus on finetuning strategies, with complicated
procedures that prohibit a wider application. In this paper, we introduce
DE-ViT, a few-shot object detector without the need for finetuning. DE-ViT's
novel architecture is based on a new region-propagation mechanism for
localization. The propagated region masks are transformed into bounding boxes
through a learnable spatial integral layer. Instead of training prototype
classifiers, we propose to use prototypes to project ViT features into a
subspace that is robust to overfitting on base classes. We evaluate DE-ViT on
few-shot, and one-shot object detection benchmarks with Pascal VOC, COCO, and
LVIS. DE-ViT establishes new state-of-the-art results on all benchmarks.
Notably, for COCO, DE-ViT surpasses the few-shot SoTA by 15 mAP on 10-shot and
7.2 mAP on 30-shot and one-shot SoTA by 2.8 AP50. For LVIS, DE-ViT outperforms
few-shot SoTA by 20 box APr.
- Abstract(参考訳): 数少ないオブジェクト検出は、いくつかのサンプル画像から新しいカテゴリを検出することを目的としている。
近年の手法は、より広範な適用を禁じる複雑な手順による微調整戦略に重点を置いている。
本稿では、微調整を必要とせず、数発の物体検出器であるDE-ViTを紹介する。
DE-ViTの新しいアーキテクチャは、ローカライゼーションのための新しい領域プロパゲーションメカニズムに基づいている。
伝搬領域マスクは、学習可能な空間積分層を介して境界ボックスに変換される。
プロトタイプ分類器を訓練する代わりに、プロトタイプを用いてViT機能をサブスペースに投影し、ベースクラスに過度に適合するようにすることを提案する。
我々は,Pascal VOC,COCO,LVISを用いて,D-ViTの評価を行った。
DE-ViTはすべてのベンチマークで新しい最先端の結果を確立する。
特にCOCOの場合、DEC-ViTは10ショットで15 mAP、30ショットで7.2 mAP、1ショットで2.8 AP50のSoTAを上回ります。
LVISでは、DE-ViTは20ボックスのAPrで数ショットのSoTAを上回ります。
関連論文リスト
- Adversarial 3D Virtual Patches using Integrated Gradients [4.081098869497239]
これまでの研究では、LiDAR信号は3Dオブジェクト検出器から実際の物体を隠すために密封されていることが示されている。
本研究は, 新たな対象隠蔽戦略により, 必要なスプーフ面積を減らすことの実現可能性について検討した。
論文 参考訳(メタデータ) (2024-06-01T03:25:48Z) - DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM [81.75988648572347]
DetToolChainはマルチモーダル大言語モデル(MLLM)のゼロショットオブジェクト検出能力を解き放つ新しいパラダイムである。
提案手法は,高精度検出にヒントを得た検出プロンプトツールキットと,これらのプロンプトを実装するための新しいChain-of-Thoughtから構成される。
DetToolChainを用いたGPT-4Vは,オープン語彙検出のための新しいクラスセットにおいて,最先端のオブジェクト検出器を+21.5%AP50で改善することを示す。
論文 参考訳(メタデータ) (2024-03-19T06:54:33Z) - Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly
Detection [133.93365706990178]
本研究は,最近提案された多クラス非教師付き異常検出(MUAD)タスクについて検討する。
通常のイメージと異常なイメージの両方を複数のクラスで同時にテストしながら、トレーニングには通常のイメージしか必要としない。
単純なアーキテクチャを持つ平易な視覚変換器(ViT)は、複数のドメインで有効であることが示されている。
論文 参考訳(メタデータ) (2023-12-12T18:28:59Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - YOLOV: Making Still Image Object Detectors Great at Video Object
Detection [23.039968987772543]
映像オブジェクト検出(VID)は,映像の外観のばらつきやフレームの多様さにより困難である。
この研究は、問題に対処するための単純だが効果的な戦略を提案する。
我々のYOLOXベースのモデルは、有望なパフォーマンスを達成することができる(例えば、1つの2080Ti GPU上のImageNet VIDデータセット上で、30FPS以上の87.5% AP50)。
論文 参考訳(メタデータ) (2022-08-20T14:12:06Z) - Incremental-DETR: Incremental Few-Shot Object Detection via
Self-Supervised Learning [60.64535309016623]
本稿では,DeTRオブジェクト検出器上での微調整および自己教師型学習によるインクリメンタル・デクリメンタル・デクリメンタル・デクリメンタル・オブジェクト検出を提案する。
まず,DeTRのクラス固有のコンポーネントを自己監督で微調整する。
さらに,DeTRのクラス固有のコンポーネントに知識蒸留を施した数発の微調整戦略を導入し,破滅的な忘れを伴わずに新しいクラスを検出するネットワークを奨励する。
論文 参考訳(メタデータ) (2022-05-09T05:08:08Z) - Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit
Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。
局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。
これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文 参考訳(メタデータ) (2021-10-26T03:09:57Z) - Meta Faster R-CNN: Towards Accurate Few-Shot Object Detection with
Attentive Feature Alignment [33.446875089255876]
Few-shot Object Detection (FSOD) は、少数の例でオブジェクトを検出することを目的としている。
本稿では,データ不足ベースクラスから学習したメタ知識を新しいクラスに転送することで,メタラーニングに基づくマイショットオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T19:01:27Z) - Any-Shot Object Detection [81.88153407655334]
「アニーショット検出」とは、全く見えず、数発のカテゴリが推論中に同時に共起できる場所である。
我々は、ゼロショットと少数ショットの両方のオブジェクトクラスを同時に検出できる、統合された任意のショット検出モデルを提案する。
我々のフレームワークは、ゼロショット検出とFewショット検出タスクにのみ使用できる。
論文 参考訳(メタデータ) (2020-03-16T03:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。