論文の概要: Virtual to Real adaptation of Pedestrian Detectors
- arxiv url: http://arxiv.org/abs/2001.03032v3
- Date: Sat, 19 Sep 2020 14:14:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 04:50:21.985736
- Title: Virtual to Real adaptation of Pedestrian Detectors
- Title(参考訳): ペデストリアン検出器の仮想から現実への適応
- Authors: Luca Ciampi, Nicola Messina, Fabrizio Falchi, Claudio Gennaro,
Giuseppe Amato
- Abstract要約: ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。
本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
- 参考スコア(独自算出の注目度): 9.432150710329607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pedestrian detection through Computer Vision is a building block for a
multitude of applications. Recently, there was an increasing interest in
Convolutional Neural Network-based architectures for the execution of such a
task. One of these supervised networks' critical goals is to generalize the
knowledge learned during the training phase to new scenarios with different
characteristics. A suitably labeled dataset is essential to achieve this
purpose. The main problem is that manually annotating a dataset usually
requires a lot of human effort, and it is costly. To this end, we introduce
ViPeD (Virtual Pedestrian Dataset), a new synthetically generated set of images
collected with the highly photo-realistic graphical engine of the video game
GTA V - Grand Theft Auto V, where annotations are automatically acquired.
However, when training solely on the synthetic dataset, the model experiences a
Synthetic2Real Domain Shift leading to a performance drop when applied to
real-world images. To mitigate this gap, we propose two different Domain
Adaptation techniques suitable for the pedestrian detection task, but possibly
applicable to general object detection. Experiments show that the network
trained with ViPeD can generalize over unseen real-world scenarios better than
the detector trained over real-world data, exploiting the variety of our
synthetic dataset. Furthermore, we demonstrate that with our Domain Adaptation
techniques, we can reduce the Synthetic2Real Domain Shift, making closer the
two domains and obtaining a performance improvement when testing the network
over the real-world images. The code, the models, and the dataset are made
freely available at https://ciampluca.github.io/viped/
- Abstract(参考訳): コンピュータビジョンによる歩行者検出は、多数のアプリケーションのためのビルディングブロックである。
近年、このようなタスクを実行するための畳み込みニューラルネットワークベースのアーキテクチャへの関心が高まっている。
これらの教師ネットワークの重要な目標の1つは、トレーニング段階で学んだ知識を異なる特徴を持つ新しいシナリオに一般化することである。
この目的を達成するには適切なラベル付きデータセットが不可欠である。
主な問題は、データセットを手動でアノテートすることは通常、多くの人的労力を必要とし、コストがかかることだ。
この目的のために,ビデオゲーム GTA V - Grand Theft Auto V の高写真リアルなグラフィカルエンジンで収集された新たな画像集合である ViPeD (Virtual Pedestrian Dataset) を紹介し,アノテーションを自動的に取得する。
しかし、合成データセットのみをトレーニングする場合、モデルはSynthetic2Real Domain Shiftを経験し、実際の画像に適用するとパフォーマンスが低下する。
このギャップを緩和するために,歩行者検出タスクに適した2つの異なるドメイン適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータに基づいてトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化し、我々の合成データセットの多様性を活用することができる。
さらに,このドメイン適応手法により,synthetic2real domain shiftの低減と2つのドメインの密接化,実世界画像上でのネットワークテスト時のパフォーマンス向上が実現可能であることを実証する。
コード、モデル、データセットはhttps://ciampluca.github.io/viped/で無料で利用できる。
関連論文リスト
- Alice Benchmarks: Connecting Real World Re-Identification with the
Synthetic [92.02220105679713]
我々は、Aliceベンチマーク、大規模データセット、ベンチマークおよび評価プロトコルを研究コミュニティに導入する。
Aliceベンチマークでは、人と車の2つのre-IDタスクが提供されている。
実際のターゲットの重要な特徴として、トレーニングセットのクラスタビリティは、実際のドメイン適応テストシナリオに近づくように手動で保証されない。
論文 参考訳(メタデータ) (2023-10-06T17:58:26Z) - ParGANDA: Making Synthetic Pedestrians A Reality For Object Detection [2.7648976108201815]
本稿では,GAN(Generative Adversarial Network)を用いて,実データと合成データのギャップを埋めることを提案する。
我々のアプローチは、視覚的に可視なサンプルを生成するだけでなく、実際のドメインのラベルも必要としない。
論文 参考訳(メタデータ) (2023-07-21T05:26:32Z) - Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances [76.34037366117234]
ロボット制御ジェスチャー(RoCoG-v2)と呼ばれる新しいデータセットを導入する。
データセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されている。
我々は,最先端の行動認識とドメイン適応アルゴリズムを用いて結果を示す。
論文 参考訳(メタデータ) (2023-03-17T23:23:55Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Domain Adaptation of Synthetic Driving Datasets for Real-World
Autonomous Driving [0.11470070927586014]
特定のコンピュータビジョンタスクのための合成データで訓練されたネットワークは、実世界のデータでテストすると大幅に劣化する。
本稿では,このような手法を改良するための新しい手法を提案し,評価する。
本稿では,このペア選択にセマンティック・インスペクションを効果的に組み込む手法を提案し,モデルの性能向上に寄与する。
論文 参考訳(メタデータ) (2023-02-08T15:51:54Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Neural-Sim: Learning to Generate Training Data with NeRF [31.81496344354997]
本稿では,ニューラルレージアンスフィールド(NeRF)を対象アプリケーションの損失関数を持つ閉ループに使用した,最初の完全微分可能な合成データパイプラインを提案する。
提案手法は,人的負担を伴わないオンデマンドでデータを生成し,目標タスクの精度を最大化する。
論文 参考訳(メタデータ) (2022-07-22T22:48:33Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Improving Deep Stereo Network Generalization with Geometric Priors [93.09496073476275]
地上の真実が密集した多様な現実世界のシーンの大規模なデータセットを得ることは困難である。
多くのアルゴリズムは、似たようなシーンや合成データセットの小さな実世界のデータセットに依存している。
本稿では,シーン幾何学の事前知識をエンド・ツー・エンドのステレオネットワークに統合し,ネットワークの一般化を支援することを提案する。
論文 参考訳(メタデータ) (2020-08-25T15:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。