論文の概要: A High-Resolution Dataset for Instance Detection with Multi-View
Instance Capture
- arxiv url: http://arxiv.org/abs/2310.19257v1
- Date: Mon, 30 Oct 2023 03:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 21:49:19.768543
- Title: A High-Resolution Dataset for Instance Detection with Multi-View
Instance Capture
- Title(参考訳): マルチビューインスタンスキャプチャによるインスタンス検出のための高分解能データセット
- Authors: Qianqian Shen, Yunhan Zhao, Nahyun Kwon, Jeeeun Kim, Yanan Li, Shu
Kong
- Abstract要約: インスタンス検出(InsDet)は、ロボット工学とコンピュータビジョンにおける長期的な問題である。
現在のInsDetは、今日の標準ではスケールが小さすぎる。
InsDetの新しいデータセットとプロトコルを導入します。
- 参考スコア(独自算出の注目度): 15.298790238028356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instance detection (InsDet) is a long-lasting problem in robotics and
computer vision, aiming to detect object instances (predefined by some visual
examples) in a cluttered scene. Despite its practical significance, its
advancement is overshadowed by Object Detection, which aims to detect objects
belonging to some predefined classes. One major reason is that current InsDet
datasets are too small in scale by today's standards. For example, the popular
InsDet dataset GMU (published in 2016) has only 23 instances, far less than
COCO (80 classes), a well-known object detection dataset published in 2014. We
are motivated to introduce a new InsDet dataset and protocol. First, we define
a realistic setup for InsDet: training data consists of multi-view instance
captures, along with diverse scene images allowing synthesizing training images
by pasting instance images on them with free box annotations. Second, we
release a real-world database, which contains multi-view capture of 100 object
instances, and high-resolution (6k x 8k) testing images. Third, we extensively
study baseline methods for InsDet on our dataset, analyze their performance and
suggest future work. Somewhat surprisingly, using the off-the-shelf
class-agnostic segmentation model (Segment Anything Model, SAM) and the
self-supervised feature representation DINOv2 performs the best, achieving >10
AP better than end-to-end trained InsDet models that repurpose object detectors
(e.g., FasterRCNN and RetinaNet).
- Abstract(参考訳): インスタンス検出(insdet)は、ロボット工学とコンピュータビジョンにおける長期にわたる問題であり、乱雑なシーンでオブジェクトインスタンス(いくつかの視覚的な例で事前に定義されている)を検出することを目的としている。
現実的な重要性があるにもかかわらず、その進歩は、事前定義されたクラスに属するオブジェクトを検出するObject Detectionによって隠れている。
主な理由は、現在のinsdetデータセットが現在の標準でスケールが小さすぎるためである。
例えば、人気のInsDetデータセットGMU(2016年に公開された)は、2014年に公開された有名なオブジェクト検出データセットであるCOCO(80クラス)よりもはるかに少ない23インスタンスしかありません。
私たちは新しいInsDetデータセットとプロトコルを導入する動機があります。
トレーニングデータは、マルチビューのインスタンスキャプチャと、フリーボックスアノテーションでインスタンスイメージをペーストしてトレーニングイメージを合成可能な、多様なシーンイメージで構成されています。
次に,100のオブジェクトインスタンスのマルチビューキャプチャと,高解像度(6k x 8k)テストイメージを含む実世界データベースをリリースする。
第3に,insdetのベースライン手法を大規模に検討し,その性能を分析し,今後の課題を示唆する。
予想外のクラス非依存のセグメンテーションモデル(segment anything model, sam)と自己教師付き特徴表現であるdinov2は、オブジェクト検出器(例えばfasterrcnnとretinanet)を再利用するエンドツーエンドトレーニングされたinsdetモデルよりも10 ap以上優れたパフォーマンスを実現しています。
関連論文リスト
- Matching Anything by Segmenting Anything [109.2507425045143]
我々は、堅牢なインスタンスアソシエーション学習のための新しい手法であるMASAを提案する。
MASAは、徹底的なデータ変換を通じてインスタンスレベルの対応を学習する。
完全アノテートされたドメイン内ビデオシーケンスでトレーニングした最先端の手法よりも,MASAの方が優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-06T16:20:07Z) - Learning Embeddings with Centroid Triplet Loss for Object Identification in Robotic Grasping [14.958823096408175]
基礎モデルはディープラーニングとコンピュータビジョンの強力なトレンドだ。
本稿では,そのような物体識別モデルの訓練に焦点をあてる。
このようなモデルをトレーニングするための主要な解決策は、遠心三重項損失(CTL)である。
論文 参考訳(メタデータ) (2024-04-09T13:01:26Z) - Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - Scaling Novel Object Detection with Weakly Supervised Detection
Transformers [21.219817483091166]
Weakly Supervised Detection Transformerを提案する。これは大規模な事前学習データセットからWSODファインタニングへの効率的な知識伝達を可能にする。
提案手法は, 大規模オブジェクト検出データセットにおいて, 従来の最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-11T21:45:54Z) - A Survey of Self-Supervised and Few-Shot Object Detection [19.647681501581225]
自己教師付き手法は、オブジェクト検出などの下流タスクにうまく転送されるラベルのないデータから表現を学習することを目的としている。
ほとんどショットされていないオブジェクト検出は、ほとんどデータを持たない新しい(見えない)オブジェクトクラスのモデルをトレーニングすることです。
本調査では, 少数ショット・自己監督型物体検出における最新のアプローチを概観し, 特徴付けする。
論文 参考訳(メタデータ) (2021-10-27T18:55:47Z) - Discovery-and-Selection: Towards Optimal Multiple Instance Learning for
Weakly Supervised Object Detection [86.86602297364826]
複数インスタンス学習(DS-MIL)と融合した発見・選択手法を提案する。
我々の提案するDS-MILアプローチは,最先端の性能を報告しながら,ベースラインを一貫して改善することができる。
論文 参考訳(メタデータ) (2021-10-18T07:06:57Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。
本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。
提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文 参考訳(メタデータ) (2021-03-25T22:34:16Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Object Instance Mining for Weakly Supervised Object Detection [24.021995037282394]
本稿では,オブジェクト検出の弱いエンドツーエンドのオブジェクトインスタンスマイニング(OIM)フレームワークを提案する。
OIMは、空間グラフと外観グラフに情報伝搬を導入することにより、各画像に存在する全ての可能なオブジェクトインスタンスを検知しようとする。
反復学習プロセスでは、同一クラスからの識別の少ないオブジェクトインスタンスを徐々に検出し、トレーニングに利用することができる。
論文 参考訳(メタデータ) (2020-02-04T02:11:39Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。