論文の概要: ParGANDA: Making Synthetic Pedestrians A Reality For Object Detection
- arxiv url: http://arxiv.org/abs/2307.11360v1
- Date: Fri, 21 Jul 2023 05:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 13:30:52.620130
- Title: ParGANDA: Making Synthetic Pedestrians A Reality For Object Detection
- Title(参考訳): ParGANDA: 合成歩行者をオブジェクト検出の現実にする
- Authors: Daria Reshetova, Guanhang Wu, Marcel Puyat, Chunhui Gu, Huizhong Chen
- Abstract要約: 本稿では,GAN(Generative Adversarial Network)を用いて,実データと合成データのギャップを埋めることを提案する。
我々のアプローチは、視覚的に可視なサンプルを生成するだけでなく、実際のドメインのラベルも必要としない。
- 参考スコア(独自算出の注目度): 2.7648976108201815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection is the key technique to a number of Computer Vision
applications, but it often requires large amounts of annotated data to achieve
decent results. Moreover, for pedestrian detection specifically, the collected
data might contain some personally identifiable information (PII), which is
highly restricted in many countries. This label intensive and privacy
concerning task has recently led to an increasing interest in training the
detection models using synthetically generated pedestrian datasets collected
with a photo-realistic video game engine. The engine is able to generate
unlimited amounts of data with precise and consistent annotations, which gives
potential for significant gains in the real-world applications. However, the
use of synthetic data for training introduces a synthetic-to-real domain shift
aggravating the final performance. To close the gap between the real and
synthetic data, we propose to use a Generative Adversarial Network (GAN), which
performsparameterized unpaired image-to-image translation to generate more
realistic images. The key benefit of using the GAN is its intrinsic preference
of low-level changes to geometric ones, which means annotations of a given
synthetic image remain accurate even after domain translation is performed thus
eliminating the need for labeling real data. We extensively experimented with
the proposed method using MOTSynth dataset to train and MOT17 and MOT20
detection datasets to test, with experimental results demonstrating the
effectiveness of this method. Our approach not only produces visually plausible
samples but also does not require any labels of the real domain thus making it
applicable to the variety of downstream tasks.
- Abstract(参考訳): オブジェクト検出は多くのコンピュータビジョンアプリケーションにとって重要な技術であるが、適切な結果を得るためには大量の注釈付きデータを必要とすることが多い。
さらに、特に歩行者検出のために、収集されたデータは、多くの国で非常に制限されている個人識別情報(PII)を含む可能性がある。
このラベルの集中性とプライバシに関するタスクは、最近、フォトリアリスティックなビデオゲームエンジンで収集された合成された歩行者データセットを使用して検出モデルをトレーニングすることへの関心が高まっている。
エンジンは厳密で一貫したアノテーションで無制限のデータを生成することができ、現実世界のアプリケーションにおいて大きな利益をもたらす可能性がある。
しかし、トレーニングに合成データを用いることで、最終的なパフォーマンスが向上する合成から現実へのドメインシフトがもたらされる。
実データと合成データのギャップを埋めるため、よりリアルな画像を生成するためにパラメータ化されていない画像と画像の変換を行うGAN(Generative Adversarial Network)を提案する。
GANを使用する主な利点は、幾何学的画像に対する低レベルな変更を本質的に好むことである。つまり、与えられた合成画像のアノテーションは、ドメイン翻訳が実行された後も正確であり、実際のデータのラベル付けは不要である。
提案手法はMOTSynthデータセットを用いて,MOT17およびMOT20検出データセットのトレーニングを行い,本手法の有効性を実験的に検証した。
我々のアプローチは、視覚的にもっともらしいサンプルを生成するだけでなく、実際のドメインのラベルも必要とせず、様々な下流タスクに適用できる。
関連論文リスト
- Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Image change detection with only a few samples [7.5780621370948635]
画像変化検出タスクの最大の障害は、さまざまな場面をカバーする大きな注釈付きデータセットの欠如である。
本稿では,合成データを生成するための単純な画像処理手法を提案する。
次に、対象検出に基づく初期の融合ネットワークを設計し、シアムニューラルネットを上回ります。
論文 参考訳(メタデータ) (2023-11-07T07:01:35Z) - Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances [76.34037366117234]
ロボット制御ジェスチャー(RoCoG-v2)と呼ばれる新しいデータセットを導入する。
データセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されている。
我々は,最先端の行動認識とドメイン適応アルゴリズムを用いて結果を示す。
論文 参考訳(メタデータ) (2023-03-17T23:23:55Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Synthetic Data for Object Classification in Industrial Applications [53.180678723280145]
オブジェクト分類では、オブジェクトごとに、異なる条件下で、多数の画像を取得することは必ずしも不可能である。
本研究は,学習データセット内の限られたデータに対処するゲームエンジンを用いた人工画像の作成について検討する。
論文 参考訳(メタデータ) (2022-12-09T11:43:04Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Neural-Sim: Learning to Generate Training Data with NeRF [31.81496344354997]
本稿では,ニューラルレージアンスフィールド(NeRF)を対象アプリケーションの損失関数を持つ閉ループに使用した,最初の完全微分可能な合成データパイプラインを提案する。
提案手法は,人的負担を伴わないオンデマンドでデータを生成し,目標タスクの精度を最大化する。
論文 参考訳(メタデータ) (2022-07-22T22:48:33Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Deep traffic light detection by overlaying synthetic context on
arbitrary natural images [49.592798832978296]
深部交通光検出器のための人工的な交通関連トレーニングデータを生成する手法を提案する。
このデータは、任意の画像背景の上に偽のトラフィックシーンをブレンドするために、基本的な非現実的なコンピュータグラフィックスを用いて生成される。
また、交通信号データセットの本質的なデータ不均衡問題にも対処し、主に黄色い状態のサンプルの少なさによって引き起こされる。
論文 参考訳(メタデータ) (2020-11-07T19:57:22Z) - Can Synthetic Data Improve Object Detection Results for Remote Sensing
Images? [15.466412729455874]
本稿では,リモートセンシング画像航空機検出の性能向上のために,広域分布のリアルな合成データの利用を提案する。
レンダリング中に、インスタンスのサイズや背景画像のクラスなど、パラメータをランダムに設定します。
合成画像をよりリアルにするために,CycleGANと実際の未ラベル画像を用いて,画素レベルで合成画像を洗練する。
論文 参考訳(メタデータ) (2020-06-09T02:23:22Z) - Virtual to Real adaptation of Pedestrian Detectors [9.432150710329607]
ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。
本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
論文 参考訳(メタデータ) (2020-01-09T14:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。