論文の概要: RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale
- arxiv url: http://arxiv.org/abs/2511.18005v1
- Date: Sat, 22 Nov 2025 10:09:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.580117
- Title: RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale
- Title(参考訳): RAISECity: 都市部における現実的な3Dワールドジェネレーションのためのマルチモーダルエージェントフレームワーク
- Authors: Shengyuan Wang, Zhiheng Zheng, Yu Shang, Lixuan He, Yangcheng Yu, Fan Hangyu, Jie Feng, Qingmin Liao, Yong Li,
- Abstract要約: RAISECityはtextbfReality-textbfAligned textbfIntelligent textbfSynthesis textbfEngineで、詳細なtextbfCityスケールの3Dワールドを作成する。
- 参考スコア(独自算出の注目度): 27.629200433201472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: City-scale 3D generation is of great importance for the development of embodied intelligence and world models. Existing methods, however, face significant challenges regarding quality, fidelity, and scalability in 3D world generation. Thus, we propose RAISECity, a \textbf{R}eality-\textbf{A}ligned \textbf{I}ntelligent \textbf{S}ynthesis \textbf{E}ngine that creates detailed, \textbf{C}ity-scale 3D worlds. We introduce an agentic framework that leverages diverse multimodal foundation tools to acquire real-world knowledge, maintain robust intermediate representations, and construct complex 3D scenes. This agentic design, featuring dynamic data processing, iterative self-reflection and refinement, and the invocation of advanced multimodal tools, minimizes cumulative errors and enhances overall performance. Extensive quantitative experiments and qualitative analyses validate the superior performance of RAISECity in real-world alignment, shape precision, texture fidelity, and aesthetics level, achieving over a 90% win-rate against existing baselines for overall perceptual quality. This combination of 3D quality, reality alignment, scalability, and seamless compatibility with computer graphics pipelines makes RAISECity a promising foundation for applications in immersive media, embodied intelligence, and world models.
- Abstract(参考訳): 都市規模の3D生成は、具体的インテリジェンスと世界モデルの開発において非常に重要である。
しかし、既存の手法は、3Dワールドジェネレーションにおける品質、忠実性、スケーラビリティに関する重大な課題に直面している。
そこで我々は、RAISECity, a \textbf{R}eality-\textbf{A}ligned \textbf{I}ntelligent \textbf{S}ynthesis \textbf{E}ngineを提案する。
本稿では,多様なマルチモーダル基盤ツールを活用して実世界の知識を取得し,堅牢な中間表現を維持し,複雑な3Dシーンを構築するエージェントフレームワークを提案する。
このエージェント設計は、動的データ処理、反復的な自己回帰と改善、高度なマルチモーダルツールの起動を特徴とし、累積誤差を最小限に抑え、全体的な性能を向上させる。
実世界のアライメント, 形状精度, テクスチャの忠実度, 美学レベルでのRAISECityの優れた性能を定量的に検証し, 総合的な知覚品質のために既存のベースラインに対して90%以上の勝利率を達成した。
この3D品質、現実の整合性、スケーラビリティ、コンピュータグラフィックスパイプラインとのシームレスな互換性の組み合わせにより、RAISECityは没入型メディア、インボディードインテリジェンス、世界モデルにおけるアプリケーションのための有望な基盤となる。
関連論文リスト
- MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts [50.37005070020306]
MoREは、Mixture-of-Experts (MoE)アーキテクチャに基づいた、密集した3Dビジュアル基盤モデルである。
MoREは、幾何推定を安定させ、洗練する信頼に基づく深度補正モジュールを組み込んでいる。
高忠実な表面正規予測のために,高密度なセマンティック特徴とグローバルな3Dバックボーン表現を統合する。
論文 参考訳(メタデータ) (2025-10-31T06:54:27Z) - ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation [44.75113949778924]
ARTDECOは、フィードフォワードモデルの効率とSLAMベースのパイプラインの信頼性を組み合わせた統合フレームワークである。
ARTDECOはSLAMに匹敵するインタラクティブな性能、フィードフォワードシステムに類似した堅牢性、シーンごとの最適化に近い再現品質を提供する。
論文 参考訳(メタデータ) (2025-10-09T17:57:38Z) - Hi3DEval: Advancing 3D Generation Evaluation with Hierarchical Validity [78.7107376451476]
Hi3DEvalは3D生成コンテンツに適した階層的評価フレームワークである。
素材リアリズムを明示的に評価することで審美的外観を超えてテクスチャ評価を拡張する。
ハイブリッド3次元表現に基づく3次元自動スコアリングシステムを提案する。
論文 参考訳(メタデータ) (2025-08-07T17:50:13Z) - AI-powered Contextual 3D Environment Generation: A Systematic Review [49.1574468325115]
本研究では,既存の3次元シーン生成のための生成AI技術について,体系的なレビューを行う。
最先端のアプローチを検討することで、シーンの真正性やテキスト入力の影響など、重要な課題が提示される。
論文 参考訳(メタデータ) (2025-06-05T15:56:28Z) - TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは、入力画像に正確に対応した高忠実度3Dメッシュを生成することができる新しい合理化形状拡散パラダイムである。
結果として得られた3D形状は、高解像度の能力によって細部が強化され、入力画像に異常な忠実さを示す。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文 参考訳(メタデータ) (2025-02-10T16:07:54Z) - M3D: Dual-Stream Selective State Spaces and Depth-Driven Framework for High-Fidelity Single-View 3D Reconstruction [3.2228041579285978]
M3Dは複雑なシーンのための新しい単一ビュー3D再構成フレームワークである。
グローバルな特徴と局所的な特徴の抽出のバランスを保ち、シーンの理解と表現精度を向上させる。
その結果,2重分岐特徴抽出による深度情報との融合により,幾何的整合性と忠実度が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-19T16:49:24Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。