論文の概要: Augmented Reality based Simulated Data (ARSim) with multi-view consistency for AV perception networks
- arxiv url: http://arxiv.org/abs/2403.15370v1
- Date: Fri, 22 Mar 2024 17:49:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 16:30:34.399358
- Title: Augmented Reality based Simulated Data (ARSim) with multi-view consistency for AV perception networks
- Title(参考訳): AV知覚ネットワークのための多視点整合性を有する拡張現実に基づくARSim
- Authors: Aqeel Anwar, Tae Eun Choe, Zian Wang, Sanja Fidler, Minwoo Park,
- Abstract要約: ARSimは3次元合成オブジェクトを用いた実写多視点画像データの拡張を目的としたフレームワークである。
実データを用いて簡易な仮想シーンを構築し,その内部に戦略的に3D合成資産を配置する。
結果として得られたマルチビュー一貫性のあるデータセットは、自動運転車のためのマルチカメラ知覚ネットワークのトレーニングに使用される。
- 参考スコア(独自算出の注目度): 47.07188762367792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting a diverse range of objects under various driving scenarios is essential for the effectiveness of autonomous driving systems. However, the real-world data collected often lacks the necessary diversity presenting a long-tail distribution. Although synthetic data has been utilized to overcome this issue by generating virtual scenes, it faces hurdles such as a significant domain gap and the substantial efforts required from 3D artists to create realistic environments. To overcome these challenges, we present ARSim, a fully automated, comprehensive, modular framework designed to enhance real multi-view image data with 3D synthetic objects of interest. The proposed method integrates domain adaptation and randomization strategies to address covariate shift between real and simulated data by inferring essential domain attributes from real data and employing simulation-based randomization for other attributes. We construct a simplified virtual scene using real data and strategically place 3D synthetic assets within it. Illumination is achieved by estimating light distribution from multiple images capturing the surroundings of the vehicle. Camera parameters from real data are employed to render synthetic assets in each frame. The resulting augmented multi-view consistent dataset is used to train a multi-camera perception network for autonomous vehicles. Experimental results on various AV perception tasks demonstrate the superior performance of networks trained on the augmented dataset.
- Abstract(参考訳): 様々な運転シナリオ下で多様な物体を検出することは、自律運転システムの有効性に不可欠である。
しかし、収集された実世界のデータは、長い尾の分布を示すために必要な多様性を欠いていることが多い。
合成データは仮想シーンを生成することでこの問題を克服するために利用されてきたが、3Dアーティストが現実的な環境を作るために必要な大きな領域ギャップやかなりの努力といったハードルに直面している。
これらの課題を克服するために,我々は,3次元合成オブジェクトを用いた実写多視点画像データの拡張を目的とした,完全に自動化され,包括的でモジュール化されたフレームワークであるARSimを提案する。
提案手法は、実データから本質的な領域属性を推定し、他の属性にシミュレーションに基づくランダム化を適用することにより、実データと模擬データの共変に対処するドメイン適応とランダム化戦略を統合する。
実データを用いて簡易な仮想シーンを構築し,その内部に戦略的に3D合成資産を配置する。
照明は、車両の周囲を撮影する複数の画像から光の分布を推定することで達成される。
実データからのカメラパラメータは、各フレームに合成資産をレンダリングするために使用される。
結果として得られたマルチビュー一貫性のあるデータセットは、自動運転車のためのマルチカメラ知覚ネットワークのトレーニングに使用される。
各種AV知覚タスクの実験結果から、拡張データセットでトレーニングしたネットワークの優れた性能が示された。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Exploring Generative AI for Sim2Real in Driving Data Synthesis [6.769182994217369]
ドライビングシミュレータは、対応するアノテーションで様々なドライビングシナリオを自動的に生成するソリューションを提供するが、シミュレーションとリアリティ(Sim2Real)ドメインギャップは依然として課題である。
本稿では,現実的なデータセット作成のためのブリッジとして,運転シミュレータからのセマンティックラベルマップを活用するために,3つの異なる生成AI手法を適用した。
実験の結果,手動のアノテートラベルが提供されると,GANベースの手法は高品質な画像を生成するには適しているが,ControlNetは,シミュレータ生成ラベルを使用すると,より少ないアーティファクトとより構造的忠実度を持つ合成データセットを生成することがわかった。
論文 参考訳(メタデータ) (2024-04-14T01:23:19Z) - Attention Mechanism for Contrastive Learning in GAN-based Image-to-Image
Translation [3.90801108629495]
本稿では,異なる領域にまたがって高品質な画像を生成可能なGANモデルを提案する。
実世界から取得した画像データと3Dゲームからのシミュレーション画像を用いて、Contrastive Learningを利用してモデルを自己指導的に訓練する。
論文 参考訳(メタデータ) (2023-02-23T14:23:23Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - VISTA 2.0: An Open, Data-driven Simulator for Multimodal Sensing and
Policy Learning for Autonomous Vehicles [131.2240621036954]
VISTAはオープンソースのデータ駆動シミュレータで、複数のタイプのセンサーを自律走行車に組み込む。
高忠実で実世界のデータセットを使用して、VISTAはRGBカメラ、3D LiDAR、イベントベースのカメラを表現し、シミュレートする。
センサタイプ毎に知覚制御ポリシーをトレーニングし,テストする能力を示し,フルスケールの自律走行車への展開を通じて,このアプローチのパワーを示す。
論文 参考訳(メタデータ) (2021-11-23T18:58:10Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Methodology for Building Synthetic Datasets with Virtual Humans [1.5556923898855324]
大規模なデータセットは、ディープニューラルネットワークの改善、ターゲットトレーニングに使用することができる。
特に,100の合成IDからなるデータセットにまたがる複数の2次元画像のレンダリングに3次元形態素顔モデルを用いる。
論文 参考訳(メタデータ) (2020-06-21T10:29:36Z) - Deflating Dataset Bias Using Synthetic Data Augmentation [8.509201763744246]
自律走行車(AV)の視覚タスクの最先端の手法は、教師あり学習に依存している。
本研究の目的は,視覚タスクにおける実際のデータセットのギャップを埋めるために,ターゲットとなる合成データ拡張の利用を検討することである。
AVに実用的な3つの異なるコンピュータビジョンタスクに関する実証研究は、トレーニングミックスに合成データを持つことは、クロスデータセットの一般化性能を著しく向上させることを一貫して示している。
論文 参考訳(メタデータ) (2020-04-28T21:56:10Z) - Virtual to Real adaptation of Pedestrian Detectors [9.432150710329607]
ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。
本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
論文 参考訳(メタデータ) (2020-01-09T14:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。