論文の概要: Self-Supervised Object Detection via Generative Image Synthesis
- arxiv url: http://arxiv.org/abs/2110.09848v1
- Date: Tue, 19 Oct 2021 11:04:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 19:27:49.570843
- Title: Self-Supervised Object Detection via Generative Image Synthesis
- Title(参考訳): 生成画像合成による自己監督対象検出
- Authors: Siva Karthik Mustikovela, Shalini De Mello, Aayush Prakash, Umar
Iqbal, Sifei Liu, Thu Nguyen-Phuoc, Carsten Rother, Jan Kautz
- Abstract要約: 本稿では,自己教師対象検出のための制御可能なGANを用いたエンドツーエンド分析合成フレームワークを提案する。
オブジェクトの合成と検出を学習するために、ボックスアノテーションを使用せずに、実世界のイメージのコレクションを使用します。
我々の研究は、制御可能なGAN画像合成という新しいパラダイムを導入することで、自己教師対象検出の分野を前進させる。
- 参考スコア(独自算出の注目度): 106.65384648377349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SSOD, the first end-to-end analysis-by synthesis framework with
controllable GANs for the task of self-supervised object detection. We use
collections of real world images without bounding box annotations to learn to
synthesize and detect objects. We leverage controllable GANs to synthesize
images with pre-defined object properties and use them to train object
detectors. We propose a tight end-to-end coupling of the synthesis and
detection networks to optimally train our system. Finally, we also propose a
method to optimally adapt SSOD to an intended target data without requiring
labels for it. For the task of car detection, on the challenging KITTI and
Cityscapes datasets, we show that SSOD outperforms the prior state-of-the-art
purely image-based self-supervised object detection method Wetectron. Even
without requiring any 3D CAD assets, it also surpasses the state-of-the-art
rendering based method Meta-Sim2. Our work advances the field of
self-supervised object detection by introducing a successful new paradigm of
using controllable GAN-based image synthesis for it and by significantly
improving the baseline accuracy of the task. We open-source our code at
https://github.com/NVlabs/SSOD.
- Abstract(参考訳): 本稿では,自己教師対象検出のための制御可能なGANを用いた初のエンドツーエンド分析合成フレームワークであるSSODを提案する。
オブジェクトの合成と検出を学習するために,ボックスアノテーションを使用せずに実世界の画像のコレクションを使用する。
我々は、制御可能なganを用いて、予め定義されたオブジェクト特性を持つ画像を合成し、それらをオブジェクト検出器のトレーニングに利用する。
本稿では,システムの最適学習のために,合成ネットワークと検出ネットワークの緊密なエンドツーエンド結合を提案する。
最後に,目的とするデータに対して,ラベルを必要とせずにSSODを最適に適応させる手法を提案する。
自動車検出の課題として,KITTI と Cityscapes のデータセットに挑戦する上で,SSOD が従来の純画像に基づく自己監督型オブジェクト検出手法であるWetectron よりも優れていることを示す。
3D CADアセットを一切必要とせずに、最先端のレンダリングベースのMeta-Sim2を超える。
本研究は,制御可能なganベースの画像合成を成功させる新しいパラダイムを導入し,タスクのベースライン精度を大幅に向上させることにより,自己教師付き物体検出の分野を前進させる。
ソースコードはhttps://github.com/NVlabs/SSOD.comで公開しています。
関連論文リスト
- Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Learning Remote Sensing Object Detection with Single Point Supervision [17.12725535531483]
Pointly Supervised Object Detection (PSOD) は、ボックスレベルの監視対象検出と比較してラベリングコストが低いため、かなりの関心を集めている。
本研究では,RS画像に適したPSOD法を提案する。
提案手法は,最先端の画像レベルとポイントレベルの教師付き検出法と比較して性能が大幅に向上し,PSODとボックスレベルの教師付きオブジェクト検出の差を低減できる。
論文 参考訳(メタデータ) (2023-05-23T15:06:04Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Label-Free Synthetic Pretraining of Object Detectors [67.17371526567325]
そこで本稿では,SOLID(Synthetic Optimization layout with Instance Detection)という新しい手法を提案する。
筆者らのSOLIDアプローチは,(1)シーンアレンジメントを最適化した非ラベルの3Dモデルを用いた合成画像の生成,(2)"インスタンス検出"タスクにおけるオブジェクト検出の事前学習,の2つの主要コンポーネントから構成される。
当社のアプローチでは,事前学習のためのセマンティックラベルは必要とせず,任意の3Dモデルを使用することが可能である。
論文 参考訳(メタデータ) (2022-08-08T16:55:17Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。