論文の概要: Generative Texture Diversification of 3D Pedestrians for Robust Autonomous Driving Perception
- arxiv url: http://arxiv.org/abs/2605.13755v1
- Date: Wed, 13 May 2026 16:35:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.181598
- Title: Generative Texture Diversification of 3D Pedestrians for Robust Autonomous Driving Perception
- Title(参考訳): 頑健な自律走行知覚のための3次元歩行者の集合組織的多様性
- Authors: Arka Bhowmick, Enes Ozeren, Ahmed Abdullah, Oliver Wasenmuller,
- Abstract要約: 本稿では,合成シーン生成のための3次元歩行者資産における変動性のスケーリング手法を提案する。
我々は、多様な顔のテクスチャとアイデンティティレベルの外観変化を合成することにより、複数の異なる歩行者インスタンスを生成する。
これらの資産を用いて, 合成データセットを構築し, 実データと合成データを混合したRGBオブジェクト検出の影響について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, autonomous driving has significantly in creased the demand for high-quality data to train 2D and 3D perception models for safety-critical scenarios. Real world datasets struggle to meet this demand as require ments continuously evolve and large-scale annotated data collection remains costly and time-consuming making syn thetic data a scalable, practical and controllable alterna tive. Pedestrian detection is among the most safety-critical tasks in autonomous driving. In this paper, we propose a simple yet effective method for scaling variability in 3D pedestrian assets for synthetic scene generation. Starting from a single 3D base asset, we generate multiple distinct pedestrian instances by synthesizing diverse facial textures and identity-level appearance variations using StyleGAN2 and automatically mapping them onto 3D meshes. This ap proach enables scalable appearance-level asset diversifica tion without requiring the design of new geometries for each instance. Using the assets, we construct synthetic datasets and study the impact of mixing real and synthetic data for RGB-based object detection. Through complementary ex periments, we analyze geometry-driven distribution shifts in point cloud perception for 3D object detection. Our findings demonstrate that controlled synthetic diversifica tion improves robustness in 2D detection while revealing the sensitivity of 3D perception models to geometric domain gaps. Overall, this work highlights how generative AI en ables scalable, simulation-ready pedestrian diversification through controlled facial texture synthesis, along with the benefits and limitations of cross-domain training strategies in autonomous driving pipelines.
- Abstract(参考訳): 近年、自律運転は、安全クリティカルシナリオのための2Dおよび3D知覚モデルをトレーニングするための高品質なデータに対する需要を著しく高めている。
要求が継続的に進化し、大規模アノテートされたデータ収集はコストがかかり、シンセティックなデータをスケーラブルで実用的で制御可能な変更物として作成するのに時間がかかるため、現実のデータセットはこの需要を満たすのに苦労する。
歩行者検出は、自動運転において最も安全に重要なタスクの1つである。
本稿では,合成シーン生成のための簡易かつ効果的な3次元歩行者資産のスケーリング方法を提案する。
1つの3Dベースアセットから、さまざまな顔のテクスチャとアイデンティティレベルの外観変化をStyleGAN2を使って合成し、3Dメッシュに自動的にマッピングすることで、複数の異なる歩行者インスタンスを生成する。
このap proachは、インスタンスごとに新しいジオメトリの設計を必要とせずに、スケーラブルな外観レベルの資産多様化を可能にする。
これらの資産を用いて, 合成データセットを構築し, 実データと合成データを混合したRGBオブジェクト検出の影響について検討する。
相補的な外周によって,3次元物体検出のための点雲知覚における幾何駆動の分布変化を解析する。
本研究は,3次元知覚モデルの幾何学的領域ギャップに対する感受性を明らかにするとともに,制御された合成多量体イオンが2次元検出の堅牢性を向上させることを示した。
全体として、この研究は、自動走行パイプラインにおけるクロスドメイントレーニング戦略のメリットと制限に加えて、顔のテクスチャ合成を制御することによって、AI生成がスケーラブルでシミュレーション可能な歩行者の多様化を実現する方法を強調している。
関連論文リスト
- Asset Harvester: Extracting 3D Assets from Autonomous Driving Logs for Simulation [63.01022057888141]
Asset Harvesterはイメージ・ツー・3Dモデルとエンドツーエンドのパイプラインで、実際の運転ログからスパース・イン・ザ・ワン・オブジェクトの観察を完全なシミュレーション可能なアセットに変換する。
SparseViewDiTは、限定角度ビューやその他の実世界のデータ課題に対処するように明示的に設計されている。
論文 参考訳(メタデータ) (2026-04-20T16:20:57Z) - R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation [78.26308457952636]
本稿では,自律運転シミュレーションの限界を克服する軽量な1ステップ拡散モデルであるR3D2を紹介する。
シャドウや一貫した照明など、妥当なレンダリング効果を生み出すことで、既存のシーンに完全な3Dアセットを現実的に挿入することができる。
R3D2は挿入されたアセットの現実性を大幅に向上させ,テキストから3Dへのアセット挿入やクロスシーン/データセットオブジェクト転送といったユースケースを可能にした。
論文 参考訳(メタデータ) (2025-06-09T14:50:19Z) - Synth It Like KITTI: Synthetic Data Generation for Object Detection in Driving Scenarios [3.30184292168618]
本稿では,LiDAR点雲上での3次元物体検出のためのCARLAシミュレータに基づくデータセット生成パイプラインを提案する。
我々は、合成データに基づいてオブジェクト検出器を訓練し、KITTIデータセットに強力な一般化能力を示すことができる。
論文 参考訳(メタデータ) (2025-02-20T22:27:42Z) - Drive-1-to-3: Enriching Diffusion Priors for Novel View Synthesis of Real Vehicles [81.29018359825872]
本稿では,実世界の課題に対して,大規模な事前学習モデルを微調整するための一連の優れたプラクティスを統合する。
具体的には,合成データと実運転データとの相違を考慮に入れたいくつかの戦略を開発する。
我々の洞察は、先行芸術よりも新しいビュー合成のためのFIDを68.8%値下げする効果のある微調整につながる。
論文 参考訳(メタデータ) (2024-12-19T03:39:13Z) - SyntheOcc: Synthesize Geometric-Controlled Street View Images through 3D Semantic MPIs [34.41011015930057]
SyntheOccは、2次元拡散モデルに対する条件入力として3次元幾何学情報を効率的にエンコードする方法の課題に対処する。
提案手法は,3次元意味的マルチプレーン画像(MPI)を革新的に組み込んで,包括的かつ空間的に整合した3次元シーン記述を提供する。
論文 参考訳(メタデータ) (2024-10-01T02:29:24Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Augmented Reality based Simulated Data (ARSim) with multi-view consistency for AV perception networks [47.07188762367792]
ARSimは3次元合成オブジェクトを用いた実写多視点画像データの拡張を目的としたフレームワークである。
実データを用いて簡易な仮想シーンを構築し,その内部に戦略的に3D合成資産を配置する。
結果として得られたマルチビュー一貫性のあるデータセットは、自動運転車のためのマルチカメラ知覚ネットワークのトレーニングに使用される。
論文 参考訳(メタデータ) (2024-03-22T17:49:11Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2023-04-04T23:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。