論文の概要: Synthetic Data-based Detection of Zebras in Drone Imagery
- arxiv url: http://arxiv.org/abs/2305.00432v2
- Date: Tue, 4 Jul 2023 10:43:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 22:27:14.220494
- Title: Synthetic Data-based Detection of Zebras in Drone Imagery
- Title(参考訳): ドローン画像におけるゼブラの合成データに基づく検出
- Authors: Elia Bonetto and Aamir Ahmad
- Abstract要約: 本稿では,人工データのみを用いて動物探知機を訓練する手法を提案する。
データセットには、RGB、深さ、骨格関節位置、ポーズ、形状、各被験者のインスタンスセグメンテーションが含まれる。
学習中に人工データのみを用いてゼブラを検出できることを示す。
- 参考スコア(独自算出の注目度): 0.8249180979158817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, there is a wide availability of datasets that enable the training
of common object detectors or human detectors. These come in the form of
labelled real-world images and require either a significant amount of human
effort, with a high probability of errors such as missing labels, or very
constrained scenarios, e.g. VICON systems. On the other hand, uncommon
scenarios, like aerial views, animals, like wild zebras, or difficult-to-obtain
information, such as human shapes, are hardly available. To overcome this,
synthetic data generation with realistic rendering technologies has recently
gained traction and advanced research areas such as target tracking and human
pose estimation. However, subjects such as wild animals are still usually not
well represented in such datasets. In this work, we first show that a
pre-trained YOLO detector can not identify zebras in real images recorded from
aerial viewpoints. To solve this, we present an approach for training an animal
detector using only synthetic data. We start by generating a novel synthetic
zebra dataset using GRADE, a state-of-the-art framework for data generation.
The dataset includes RGB, depth, skeletal joint locations, pose, shape and
instance segmentations for each subject. We use this to train a YOLO detector
from scratch. Through extensive evaluations of our model with real-world data
from i) limited datasets available on the internet and ii) a new one collected
and manually labelled by us, we show that we can detect zebras by using only
synthetic data during training. The code, results, trained models, and both the
generated and training data are provided as open-source at
https://eliabntt.github.io/grade-rr.
- Abstract(参考訳): 現在、一般的な物体検出器や人体検出器の訓練を可能にするデータセットが広く利用可能である。
これらはラベル付き実世界のイメージの形で提供され、ラベルの欠如やVICONシステムのような非常に制約のあるシナリオのような高いエラーの確率で、かなりの量の人的努力を必要とする。
一方、空の景色や野生のシマウマのような動物、人間の形のような難易度の高い情報など、一般的なシナリオはほとんど得られない。
これを解決するために、リアルなレンダリング技術を用いた合成データ生成が最近注目を集め、ターゲット追跡や人間のポーズ推定といった先進的な研究分野が進められている。
しかし、野生動物のような対象は通常そのようなデータセットではよく表現されない。
本研究は,まず,事前学習したYOLO検出器が,空中から記録した実画像中のゼブラを識別できないことを示す。
そこで本研究では,合成データのみを用いて動物検出器を訓練する手法を提案する。
まず、データ生成のための最先端フレームワークであるGRADEを用いて、新しい合成ゼブラデータセットを生成する。
データセットには、RGB、深さ、骨格関節位置、ポーズ、形状、各被験者のインスタンスセグメンテーションが含まれる。
これを使って、YOLO検出器をゼロからトレーニングします。
実世界のデータを用いたモデルの評価を通して
一 インターネットで利用可能な限られたデータセット及び
二 訓練中に合成データのみを用いて、新たに収集し、手作業でラベルづけしたゼブラを検出できることを示す。
コード、結果、トレーニングされたモデル、および生成されたデータおよびトレーニングデータは、https://eliabntt.github.io/grade-rr.でオープンソースとして提供される。
関連論文リスト
- ZebraPose: Zebra Detection and Pose Estimation using only Synthetic Data [0.2302001830524133]
3次元シミュレータで生成された合成データを用いて、ゼブラの検知と2次元ポーズ推定の両方に使用できる最初の合成データセットを得る。
複数の実世界および合成データセット上で検出と2次元ポーズ推定モデルを広範囲にトレーニングし、ベンチマークする。
これらの実験は、スクラッチから訓練されたモデルと合成データのみで、ゼブラの実際の画像に一貫して一般化できることを示す。
論文 参考訳(メタデータ) (2024-08-20T13:28:37Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - Learning from synthetic data generated with GRADE [0.6982738885923204]
本稿では,ロボット工学研究のための現実的なアニメーション動的環境(GRADE)を作成するためのフレームワークを提案する。
GRADEは、完全なシミュレーション制御、ROS統合、現実物理学をサポートし、高い視覚的忠実度画像と地上真実データを生成するエンジン内にある。
合成データのみを用いてトレーニングしても、同一のアプリケーション領域における実世界の画像によく当てはまることを示す。
論文 参考訳(メタデータ) (2023-05-07T14:13:04Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z) - PeopleSansPeople: A Synthetic Data Generator for Human-Centric Computer
Vision [3.5694949627557846]
我々は人間中心の合成データ生成装置 PeopleSansPeople をリリースする。
シミュレーション可能な3Dアセット、パラメータ化照明とカメラシステム、および2Dおよび3Dバウンディングボックス、インスタンスとセマンティックセグメンテーション、COCOポーズラベルを生成する。
論文 参考訳(メタデータ) (2021-12-17T02:33:31Z) - Fake It Till You Make It: Face analysis in the wild using synthetic data
alone [9.081019005437309]
合成データだけで顔関連コンピュータビジョンを野生で実行可能であることを示す。
本稿では、手続き的に生成された3次元顔モデルと手作り資産の包括的ライブラリを組み合わせることで、前例のないリアリズムによるトレーニング画像のレンダリングを行う方法について述べる。
論文 参考訳(メタデータ) (2021-09-30T13:07:04Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - Hidden Footprints: Learning Contextual Walkability from 3D Human Trails [70.01257397390361]
現在のデータセットは、人々がどこにいるか、どこにいるかを教えてくれません。
まず、画像間で人の観察を伝播させ、3D情報を利用して、私たちが「隠れ足跡」と呼ぶものを作成することで、有効なラベル付き歩行可能領域の集合を拡大する。
このようなスパースラベルのために設計されたトレーニング戦略を考案し、クラスバランスの分類損失と文脈逆転損失を組み合わせた。
論文 参考訳(メタデータ) (2020-08-19T23:19:08Z) - Virtual to Real adaptation of Pedestrian Detectors [9.432150710329607]
ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。
本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
論文 参考訳(メタデータ) (2020-01-09T14:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。