論文の概要: Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2503.21449v1
- Date: Thu, 27 Mar 2025 12:41:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:31.230289
- Title: Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving
- Title(参考訳): 自律運転のためのリアルな3次元セマンティックトレーニングデータ作成に向けて
- Authors: Lucas Nunes, Rodrigo Marcuzzi, Jens Behley, Cyrill Stachniss,
- Abstract要約: 自律運転では、3Dセマンティックセグメンテーションが安全なナビゲーションを可能にする重要な役割を果たす。
3Dデータの収集と注釈付けの複雑さは、この開発のボトルネックである。
本稿では,3次元のセマンティック・シーン・スケールのデータを投影モデルやデカップリングモデルに頼らずに生成する手法を提案する。
- 参考スコア(独自算出の注目度): 27.088907562842902
- License:
- Abstract: Semantic scene understanding is crucial for robotics and computer vision applications. In autonomous driving, 3D semantic segmentation plays an important role for enabling safe navigation. Despite significant advances in the field, the complexity of collecting and annotating 3D data is a bottleneck in this developments. To overcome that data annotation limitation, synthetic simulated data has been used to generate annotated data on demand. There is still however a domain gap between real and simulated data. More recently, diffusion models have been in the spotlight, enabling close-to-real data synthesis. Those generative models have been recently applied to the 3D data domain for generating scene-scale data with semantic annotations. Still, those methods either rely on image projection or decoupled models trained with different resolutions in a coarse-to-fine manner. Such intermediary representations impact the generated data quality due to errors added in those transformations. In this work, we propose a novel approach able to generate 3D semantic scene-scale data without relying on any projection or decoupled trained multi-resolution models, achieving more realistic semantic scene data generation compared to previous state-of-the-art methods. Besides improving 3D semantic scene-scale data synthesis, we thoroughly evaluate the use of the synthetic scene samples as labeled data to train a semantic segmentation network. In our experiments, we show that using the synthetic annotated data generated by our method as training data together with the real semantic segmentation labels, leads to an improvement in the semantic segmentation model performance. Our results show the potential of generated scene-scale point clouds to generate more training data to extend existing datasets, reducing the data annotation effort. Our code is available at https://github.com/PRBonn/3DiSS.
- Abstract(参考訳): セマンティックシーン理解はロボット工学とコンピュータビジョンの応用にとって不可欠である。
自律運転では、3Dセマンティックセグメンテーションが安全なナビゲーションを可能にする重要な役割を果たす。
この分野での大きな進歩にもかかわらず、3Dデータの収集と注釈付けの複雑さは、この発展のボトルネックとなっている。
データアノテーションの制限を克服するために、オンデマンドで注釈付きデータを生成するために合成シミュレートされたデータが使用されている。
しかし、実際のデータとシミュレーションデータの間にはまだドメインギャップがある。
最近では拡散モデルが注目され、近くから実際のデータ合成が可能になった。
これらの生成モデルは、最近3Dデータドメインに適用され、セマンティックアノテーションでシーンスケールのデータを生成する。
それでも、これらの手法は画像投影か、様々な解像度で粗い方法で訓練された切り離しモデルに依存している。
このような中間表現は、これらの変換に追加されたエラーによって生成されたデータ品質に影響を与える。
本研究では,従来の最先端手法よりもリアルなセマンティックなシーンデータ生成を実現し,プロジェクションやデカップリングしたマルチレゾリューションモデルに頼らずに3次元セマンティックシーンスケールデータを生成する手法を提案する。
3Dセマンティックシーンスケールのデータ合成の改善に加えて、セマンティックセグメンテーションネットワークをトレーニングするためのラベル付きデータとして、合成シーンサンプルの使用を徹底的に評価する。
本研究では,本手法が生成した合成アノテートデータを実意味セグメンテーションラベルとともにトレーニングデータとして用いることにより,意味セグメンテーションモデルの性能が向上することを示す。
その結果,既存のデータセットを拡張するためのトレーニングデータを生成するために,シーンスケールのポイントクラウドが生成される可能性を示し,データアノテーションの労力を削減した。
私たちのコードはhttps://github.com/PRBonn/3DiSS.comで公開されています。
関連論文リスト
- Drive-1-to-3: Enriching Diffusion Priors for Novel View Synthesis of Real Vehicles [81.29018359825872]
本稿では,実世界の課題に対して,大規模な事前学習モデルを微調整するための一連の優れたプラクティスを統合する。
具体的には,合成データと実運転データとの相違を考慮に入れたいくつかの戦略を開発する。
我々の洞察は、先行芸術よりも新しいビュー合成のためのFIDを68.8%値下げする効果のある微調整につながる。
論文 参考訳(メタデータ) (2024-12-19T03:39:13Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - 3D Adversarial Augmentations for Robust Out-of-Domain Predictions [115.74319739738571]
ドメイン外データへの一般化の改善に注力する。
対象を逆向きに変形させるベクトルの集合を学習する。
本研究では,学習したサンプル非依存ベクトルをモデルトレーニング時に利用可能なオブジェクトに適用することにより,対数拡大を行う。
論文 参考訳(メタデータ) (2023-08-29T17:58:55Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Robust Category-Level 3D Pose Estimation from Synthetic Data [17.247607850702558]
CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。
逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
論文 参考訳(メタデータ) (2023-05-25T14:56:03Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Towards 3D Scene Understanding by Referring Synthetic Models [65.74211112607315]
メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。
合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。
実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
論文 参考訳(メタデータ) (2022-03-20T13:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。