論文の概要: Detect Everything with Few Examples
- arxiv url: http://arxiv.org/abs/2309.12969v4
- Date: Wed, 02 Oct 2024 19:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:29:43.019771
- Title: Detect Everything with Few Examples
- Title(参考訳): わずかな例ですべてを検知する
- Authors: Xinyu Zhang, Yuhan Liu, Yuting Wang, Abdeslam Boularias,
- Abstract要約: 少数のサンプル画像のみに与えられる新しいカテゴリを検出することを目的としている。
近年の手法は、より広範な適用を禁じる複雑な手順による微調整戦略に重点を置いている。
我々は、微調整を必要とせず、数発の物体検出器であるDE-ViTを導入する。
- 参考スコア(独自算出の注目度): 33.69433602875387
- License:
- Abstract: Few-shot object detection aims at detecting novel categories given only a few example images. It is a basic skill for a robot to perform tasks in open environments. Recent methods focus on finetuning strategies, with complicated procedures that prohibit a wider application. In this paper, we introduce DE-ViT, a few-shot object detector without the need for finetuning. DE-ViT's novel architecture is based on a new region-propagation mechanism for localization. The propagated region masks are transformed into bounding boxes through a learnable spatial integral layer. Instead of training prototype classifiers, we propose to use prototypes to project ViT features into a subspace that is robust to overfitting on base classes. We evaluate DE-ViT on few-shot, and one-shot object detection benchmarks with Pascal VOC, COCO, and LVIS. DE-ViT establishes new state-of-the-art results on all benchmarks. Notably, for COCO, DE-ViT surpasses the few-shot SoTA by 15 mAP on 10-shot and 7.2 mAP on 30-shot and one-shot SoTA by 2.8 AP50. For LVIS, DE-ViT outperforms few-shot SoTA by 17 box APr. Further, we evaluate DE-ViT with a real robot by building a pick-and-place system for sorting novel objects based on example images. The videos of our robot demonstrations, the source code and the models of DE-ViT can be found at https://mlzxy.github.io/devit.
- Abstract(参考訳): 少数のサンプル画像のみに与えられる新しいカテゴリを検出することを目的としている。
ロボットがオープン環境でタスクを実行するための基本的なスキルである。
近年の手法は、より広範な適用を禁じる複雑な手順による微調整戦略に重点を置いている。
本稿では、微調整を必要とせず、数発の物体検出器であるDE-ViTを紹介する。
DE-ViTの新しいアーキテクチャは、ローカライゼーションのための新しい領域プロパゲーションメカニズムに基づいている。
伝播領域マスクは、学習可能な空間積分層を介して境界ボックスに変換される。
プロトタイプ分類器を訓練する代わりに、プロトタイプを用いてViT機能をサブスペースに投影し、ベースクラスに過度に適合するようにすることを提案する。
我々は,Pascal VOC,COCO,LVISを用いて,数ショット,1ショットのオブジェクト検出ベンチマークでDe-ViTを評価した。
DE-ViTはすべてのベンチマークで新しい最先端の結果を確立する。
特にCOCOの場合、DEC-ViTは10ショットで15 mAP、30ショットで7.2 mAP、1ショットで2.8 AP50のSoTAを上回ります。
LVISの場合、DE-ViTは17個のAPrで数ショットのSoTAを上回ります。
さらに、サンプル画像に基づいて新しいオブジェクトをソートするピック・アンド・プレイス・システムを構築し、実ロボットによるDECの評価を行った。
ロボットデモのビデオ、ソースコード、DE-ViTのモデルなどはhttps://mlzxy.github.io/devit.comで見ることができる。
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - OSR-ViT: A Simple and Modular Framework for Open-Set Object Detection and Discovery [16.055210504552406]
我々は、OODD(Open-Set Object Detection and Discovery)と呼ばれる新しいタスクを提案する。
提案するOpen-Set Regions with ViT features (OSR-ViT) Detection framework。
OSR-ViTは、クラスに依存しない提案ネットワークと強力なViTベースの分類器を組み合わせる。
論文 参考訳(メタデータ) (2024-04-16T19:29:27Z) - Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly Detection [128.40330044868293]
Vision Transformer (ViT) では、より単純なアーキテクチャが複数のドメインで有効であることが証明されている。
ViTADはMVTec AD、VisA、Uni-Medicalデータセット上で最先端の結果と効率を達成する。
論文 参考訳(メタデータ) (2023-12-12T18:28:59Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - YOLOV: Making Still Image Object Detectors Great at Video Object
Detection [23.039968987772543]
映像オブジェクト検出(VID)は,映像の外観のばらつきやフレームの多様さにより困難である。
この研究は、問題に対処するための単純だが効果的な戦略を提案する。
我々のYOLOXベースのモデルは、有望なパフォーマンスを達成することができる(例えば、1つの2080Ti GPU上のImageNet VIDデータセット上で、30FPS以上の87.5% AP50)。
論文 参考訳(メタデータ) (2022-08-20T14:12:06Z) - Task-Focused Few-Shot Object Detection for Robot Manipulation [1.8275108630751844]
本研究では,検出のみに基づく操作手法を開発し,タスク中心の少数ショット検出を導入し,新しいオブジェクトや設定を学習する。
数ショット学習へのインタラクティブなアプローチの実験では、ロボットに検出からオブジェクトを直接操作するように訓練する(ClickBot)。
論文 参考訳(メタデータ) (2022-01-28T21:52:05Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。
本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。
提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文 参考訳(メタデータ) (2021-03-25T22:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。