論文の概要: Stable-Sim2Real: Exploring Simulation of Real-Captured 3D Data with Two-Stage Depth Diffusion
- arxiv url: http://arxiv.org/abs/2507.23483v1
- Date: Thu, 31 Jul 2025 12:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.727446
- Title: Stable-Sim2Real: Exploring Simulation of Real-Captured 3D Data with Two-Stage Depth Diffusion
- Title(参考訳): 安定Sim2Real:2段深さ拡散による実時間3次元データの探索シミュレーション
- Authors: Mutian Xu, Chongjie Ye, Haolin Liu, Yushuang Wu, Jiahao Chang, Xiaoguang Han,
- Abstract要約: 3Dデータシミュレーションは、シミュレーションされた3Dデータと実際の3Dデータのギャップを埋めることを目的としている。
大部分の3Dデータシミュレーション手法は、事前に定義された物理的前提を注入するが、実際のデータの完全な複雑さを捉えるのに苦労する。
この研究は、新しい2段階の深さ拡散モデルに基づいて、Stable-Sim2Realと呼ばれる新しい解経路を探索する。
- 参考スコア(独自算出の注目度): 16.720863475636328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D data simulation aims to bridge the gap between simulated and real-captured 3D data, which is a fundamental problem for real-world 3D visual tasks. Most 3D data simulation methods inject predefined physical priors but struggle to capture the full complexity of real data. An optimal approach involves learning an implicit mapping from synthetic to realistic data in a data-driven manner, but progress in this solution has met stagnation in recent studies. This work explores a new solution path of data-driven 3D simulation, called Stable-Sim2Real, based on a novel two-stage depth diffusion model. The initial stage finetunes Stable-Diffusion to generate the residual between the real and synthetic paired depth, producing a stable but coarse depth, where some local regions may deviate from realistic patterns. To enhance this, both the synthetic and initial output depth are fed into a second-stage diffusion, where diffusion loss is adjusted to prioritize these distinct areas identified by a 3D discriminator. We provide a new benchmark scheme to evaluate 3D data simulation methods. Extensive experiments show that training the network with the 3D simulated data derived from our method significantly enhances performance in real-world 3D visual tasks. Moreover, the evaluation demonstrates the high similarity between our 3D simulated data and real-captured patterns. Project page: https://mutianxu.github.io/stable-sim2real/.
- Abstract(参考訳): 3Dデータシミュレーションは、シミュレーションされた3Dデータと実際の3Dデータのギャップを埋めることを目的としている。
大部分の3Dデータシミュレーション手法は、事前に定義された物理的前提を注入するが、実際のデータの完全な複雑さを捉えるのに苦労する。
最適なアプローチは、合成データからリアルデータへの暗黙のマッピングをデータ駆動方式で学習することであるが、このソリューションの進歩は近年の研究では停滞している。
この研究は、新しい2段階の深度拡散モデルに基づいて、スタブル・シム2リアルと呼ばれるデータ駆動3次元シミュレーションの新しい解経路を探索する。
初期段階は安定拡散を微細化し、実際の対深さと合成対深さの間の残留物を生成し、安定したが粗い深さを生成し、いくつかの局所領域は現実的なパターンから逸脱する可能性がある。
これを強化するために、合成および初期出力深度の両方を第2の拡散に供給し、拡散損失を調整し、3D判別器で識別されたこれらの異なる領域を優先順位付けする。
我々は3次元データシミュレーション手法を評価するための新しいベンチマーク手法を提案する。
広汎な実験により,本手法から得られた3次元シミュレーションデータを用いてネットワークをトレーニングすることにより,実世界の3次元視覚タスクの性能が著しく向上することが示された。
さらに,3次元シミュレーションデータと実撮影パターンとの類似性が高いことを示す。
プロジェクトページ: https://mutianxu.github.io/stable-sim2real/
関連論文リスト
- R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation [78.26308457952636]
本稿では,自律運転シミュレーションの限界を克服する軽量な1ステップ拡散モデルであるR3D2を紹介する。
シャドウや一貫した照明など、妥当なレンダリング効果を生み出すことで、既存のシーンに完全な3Dアセットを現実的に挿入することができる。
R3D2は挿入されたアセットの現実性を大幅に向上させ,テキストから3Dへのアセット挿入やクロスシーン/データセットオブジェクト転送といったユースケースを可能にした。
論文 参考訳(メタデータ) (2025-06-09T14:50:19Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z) - Learning Dense Correspondence from Synthetic Environments [27.841736037738286]
既存の方法では、実際の2D画像に手動でラベル付けされた人間のピクセルを3D表面にマッピングする。
本稿では,自動生成合成データを用いた2次元3次元人物マッピングアルゴリズムの訓練により,データ不足の問題を解決することを提案する。
論文 参考訳(メタデータ) (2022-03-24T08:13:26Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。