論文の概要: Detect Every Thing with Few Examples
- arxiv url: http://arxiv.org/abs/2309.12969v2
- Date: Tue, 21 Nov 2023 16:27:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 04:54:37.761010
- Title: Detect Every Thing with Few Examples
- Title(参考訳): わずかな例ですべてのものを検出する
- Authors: Xinyu Zhang, Yuting Wang, Abdeslam Boularias
- Abstract要約: 視覚のみのDINOv2バックボーンを利用するオープンセットオブジェクト検出器であるDE-ViTを導入し、言語の代わりにサンプル画像を用いて新しいカテゴリを学習する。
我々は、クラスごとの推論をバイパスしながら、複数の分類タスクを二分分類タスクに変換し、ローカライゼーションのための新しい領域伝搬手法を提案する。
- 参考スコア(独自算出の注目度): 25.312020775388746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-set object detection aims at detecting arbitrary categories beyond those
seen during training. Most recent advancements have adopted the open-vocabulary
paradigm, utilizing vision-language backbones to represent categories with
language. In this paper, we introduce DE-ViT, an open-set object detector that
employs vision-only DINOv2 backbones and learns new categories through example
images instead of language. To improve general detection ability, we transform
multi-classification tasks into binary classification tasks while bypassing
per-class inference, and propose a novel region propagation technique for
localization. We evaluate DE-ViT on open-vocabulary, few-shot, and one-shot
object detection benchmark with COCO and LVIS. For COCO, DE-ViT outperforms the
open-vocabulary SoTA by 6.9 AP50 and achieves 50 AP50 in novel classes. DE-ViT
surpasses the few-shot SoTA by 15 mAP on 10-shot and 7.2 mAP on 30-shot and
one-shot SoTA by 2.8 AP50. For LVIS, DE-ViT outperforms the open-vocabulary
SoTA by 2.2 mask AP and reaches 34.3 mask APr. Code is available at
https://github.com/mlzxy/devit.
- Abstract(参考訳): オープンセットオブジェクト検出は、トレーニング中に見られる以上の任意のカテゴリを検出することを目的としている。
最近の進歩はオープン語彙パラダイムを採用しており、視覚言語バックボーンを利用して言語によるカテゴリを表現している。
本稿では,視覚のみのDINOv2バックボーンを用いたオープンセットオブジェクト検出器であるDE-ViTを紹介し,言語の代わりにサンプル画像を用いて新しいカテゴリを学習する。
一般化検出能力を向上させるために,クラスごとの推論をバイパスしながら,複数分類タスクを二分分類タスクに変換する手法を提案する。
オープンボキャブラリ,少数ショット,ワンショットオブジェクト検出ベンチマークにおいて,COCO,LVISを用いてDe-ViTを評価する。
COCOでは、De-ViTはオープン語彙のSoTAを6.9 AP50で上回り、新しいクラスでは50 AP50を達成した。
DE-ViTは10ショットで15mAP、30ショットで7.2mAP、1ショットで2.8AP50のSoTAを上回る。
LVISでは、De-ViTは2.2マスクAPでオープン語彙SoTAより優れ、34.3マスクAPrに達する。
コードはhttps://github.com/mlzxy/devitで入手できる。
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - OSR-ViT: A Simple and Modular Framework for Open-Set Object Detection and Discovery [16.055210504552406]
我々は、OODD(Open-Set Object Detection and Discovery)と呼ばれる新しいタスクを提案する。
提案するOpen-Set Regions with ViT features (OSR-ViT) Detection framework。
OSR-ViTは、クラスに依存しない提案ネットワークと強力なViTベースの分類器を組み合わせる。
論文 参考訳(メタデータ) (2024-04-16T19:29:27Z) - Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly Detection [128.40330044868293]
Vision Transformer (ViT) では、より単純なアーキテクチャが複数のドメインで有効であることが証明されている。
ViTADはMVTec AD、VisA、Uni-Medicalデータセット上で最先端の結果と効率を達成する。
論文 参考訳(メタデータ) (2023-12-12T18:28:59Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - YOLOV: Making Still Image Object Detectors Great at Video Object
Detection [23.039968987772543]
映像オブジェクト検出(VID)は,映像の外観のばらつきやフレームの多様さにより困難である。
この研究は、問題に対処するための単純だが効果的な戦略を提案する。
我々のYOLOXベースのモデルは、有望なパフォーマンスを達成することができる(例えば、1つの2080Ti GPU上のImageNet VIDデータセット上で、30FPS以上の87.5% AP50)。
論文 参考訳(メタデータ) (2022-08-20T14:12:06Z) - Task-Focused Few-Shot Object Detection for Robot Manipulation [1.8275108630751844]
本研究では,検出のみに基づく操作手法を開発し,タスク中心の少数ショット検出を導入し,新しいオブジェクトや設定を学習する。
数ショット学習へのインタラクティブなアプローチの実験では、ロボットに検出からオブジェクトを直接操作するように訓練する(ClickBot)。
論文 参考訳(メタデータ) (2022-01-28T21:52:05Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。
本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。
提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文 参考訳(メタデータ) (2021-03-25T22:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。