論文の概要: EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence
- arxiv url: http://arxiv.org/abs/2506.10600v1
- Date: Thu, 12 Jun 2025 11:43:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.706243
- Title: EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence
- Title(参考訳): EmbodiedGen: エンボダイドインテリジェンスのための生成3Dワールドエンジンを目指して
- Authors: Wang Xinjie, Liu Liu, Cao Yu, Wu Ruiqi, Qin Wenkang, Wang Dehui, Sui Wei, Su Zhizhong,
- Abstract要約: EmbodiedGenはインタラクティブな3Dワールドジェネレーションのための基盤となるプラットフォームだ。
高品質で、制御可能で、フォトリアリスティックな3Dアセットを低コストでスケーラブルに生成することができる。
- 参考スコア(独自算出の注目度): 3.7459089436915036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constructing a physically realistic and accurately scaled simulated 3D world is crucial for the training and evaluation of embodied intelligence tasks. The diversity, realism, low cost accessibility and affordability of 3D data assets are critical for achieving generalization and scalability in embodied AI. However, most current embodied intelligence tasks still rely heavily on traditional 3D computer graphics assets manually created and annotated, which suffer from high production costs and limited realism. These limitations significantly hinder the scalability of data driven approaches. We present EmbodiedGen, a foundational platform for interactive 3D world generation. It enables the scalable generation of high-quality, controllable and photorealistic 3D assets with accurate physical properties and real-world scale in the Unified Robotics Description Format (URDF) at low cost. These assets can be directly imported into various physics simulation engines for fine-grained physical control, supporting downstream tasks in training and evaluation. EmbodiedGen is an easy-to-use, full-featured toolkit composed of six key modules: Image-to-3D, Text-to-3D, Texture Generation, Articulated Object Generation, Scene Generation and Layout Generation. EmbodiedGen generates diverse and interactive 3D worlds composed of generative 3D assets, leveraging generative AI to address the challenges of generalization and evaluation to the needs of embodied intelligence related research. Code is available at https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html.
- Abstract(参考訳): 物理的にリアルで正確にスケールされた3D世界を構築することは、具体的知能タスクの訓練と評価に不可欠である。
多様性、リアリズム、低コストのアクセシビリティ、そして3Dデータアセットの安価さは、具体化されたAIの一般化とスケーラビリティを達成する上で非常に重要である。
しかし、現在のインテリジェンスタスクの多くは、手動で作成・注釈付けされた従来の3Dコンピュータグラフィックスアセットに大きく依存している。
これらの制限は、データ駆動アプローチのスケーラビリティを著しく妨げます。
本稿では,インタラクティブな3Dワールドジェネレーションのための基盤プラットフォームであるEmbodiedGenを紹介する。
これは、Unified Robotics Description Format(URDF)において、精度の高い物理的特性と実世界のスケールを備えた高品質で制御可能なフォトリアリスティックな3Dアセットを低コストで、スケーラブルな生成を可能にする。
これらの資産は、様々な物理シミュレーションエンジンに直接インポートして、微粒な物理制御を行い、トレーニングと評価の下流タスクをサポートすることができる。
EmbodiedGenは、Image-to-3D、Text-to-3D、Texture Generation、Articulated Object Generation、Scene Generation、Layout Generationの6つの主要なモジュールで構成される、使いやすくフル機能のツールキットである。
EmbodiedGenは、ジェネレーティブな3Dアセットで構成された多様なインタラクティブな3Dワールドを生成し、ジェネレーティブなAIを活用して、一般化と評価の課題を具現化されたインテリジェンス関連の研究のニーズに対処する。
コードはhttps://horizonrobotics.github.io/robot_lab/embodied_gen/index.htmlで公開されている。
関連論文リスト
- Aligning Text, Images, and 3D Structure Token-by-Token [8.521599463802637]
構造化3次元シーンにおける自己回帰モデルの可能性について検討する。
言語,画像,3Dシーンを整合させる統一LLMフレームワークを提案する。
実世界の3Dオブジェクト認識タスクにおけるモデルの有効性を示す。
論文 参考訳(メタデータ) (2025-06-09T17:59:37Z) - R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation [78.26308457952636]
本稿では,自律運転シミュレーションの限界を克服する軽量な1ステップ拡散モデルであるR3D2を紹介する。
シャドウや一貫した照明など、妥当なレンダリング効果を生み出すことで、既存のシーンに完全な3Dアセットを現実的に挿入することができる。
R3D2は挿入されたアセットの現実性を大幅に向上させ,テキストから3Dへのアセット挿入やクロスシーン/データセットオブジェクト転送といったユースケースを可能にした。
論文 参考訳(メタデータ) (2025-06-09T14:50:19Z) - Generative AI Framework for 3D Object Generation in Augmented Reality [0.0]
この論文は、最先端の生成AIモデルを統合し、拡張現実(AR)環境で3Dオブジェクトをリアルタイムに作成する。
このフレームワークは、ゲーム、教育、小売、インテリアデザインといった業界にまたがる応用を実証している。
重要な貢献は、3Dモデル作成の民主化であり、高度なAIツールを幅広い聴衆に利用できるようにする。
論文 参考訳(メタデータ) (2025-02-21T17:01:48Z) - GenEx: Generating an Explorable World [59.0666303068111]
我々は、その生成的想像力によって導かれる複雑なエンボディ世界探査を計画できるシステムGenExを紹介する。
GenExは、単一のRGB画像から3D一貫性のある想像環境全体を生成します。
GPT支援エージェントは、ゴールに依存しない探索とゴール駆動ナビゲーションの両方を含む複雑な実施作業を行う。
論文 参考訳(メタデータ) (2024-12-12T18:59:57Z) - Atlas3D: Physically Constrained Self-Supporting Text-to-3D for Simulation and Fabrication [50.541882834405946]
我々は,テキストから3Dへの自動的実装であるAtlas3Dを紹介する。
提案手法は,新しい微分可能シミュレーションに基づく損失関数と,物理的にインスパイアされた正規化を組み合わせたものである。
我々は、Atlas3Dの有効性を広範囲な生成タスクを通して検証し、シミュレーションと実環境の両方で結果の3Dモデルを検証する。
論文 参考訳(メタデータ) (2024-05-28T18:33:18Z) - GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2023-04-04T23:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。