論文の概要: ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies
- arxiv url: http://arxiv.org/abs/2506.14315v2
- Date: Wed, 18 Jun 2025 07:15:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 13:10:45.380036
- Title: ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies
- Title(参考訳): ImmerseGen:Alpha-Artured Proxies搭載のエージェントガイド型没入型ワールドジェネレーション
- Authors: Jinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma,
- Abstract要約: 本稿では,VRシーンのコンパクト・ワールドコンディションのためのエージェント誘導フレームワークWeImmerseGenについて述べる。
本稿では,複雑なテクスチャをセマンティックなモデリングでバイパスする手法を提案する。
実験では、ユーザー効率の向上とモバイルヘッドセットでのVRレンダリングの改善が示されている。
- 参考スコア(独自算出の注目度): 25.96895266979283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic creation of 3D scenes for immersive VR presence has been a significant research focus for decades. However, existing methods often rely on either high-poly mesh modeling with post-hoc simplification or massive 3D Gaussians, resulting in a complex pipeline or limited visual realism. In this paper, we demonstrate that such exhaustive modeling is unnecessary for achieving compelling immersive experience. We introduce ImmerseGen, a novel agent-guided framework for compact and photorealistic world modeling. ImmerseGen represents scenes as hierarchical compositions of lightweight geometric proxies, i.e., simplified terrain and billboard meshes, and generates photorealistic appearance by synthesizing RGBA textures onto these proxies. Specifically, we propose terrain-conditioned texturing for user-centric base world synthesis, and RGBA asset texturing for midground and foreground scenery. This reformulation offers several advantages: (i) it simplifies modeling by enabling agents to guide generative models in producing coherent textures that integrate seamlessly with the scene; (ii) it bypasses complex geometry creation and decimation by directly synthesizing photorealistic textures on proxies, preserving visual quality without degradation; (iii) it enables compact representations suitable for real-time rendering on mobile VR headsets. To automate scene creation from text prompts, we introduce VLM-based modeling agents enhanced with semantic grid-based analysis for improved spatial reasoning and accurate asset placement. ImmerseGen further enriches scenes with dynamic effects and ambient audio to support multisensory immersion. Experiments on scene generation and live VR showcases demonstrate that ImmerseGen achieves superior photorealism, spatial coherence and rendering efficiency compared to prior methods. Project webpage: https://immersegen.github.io.
- Abstract(参考訳): 没入型VR(没入型VR)のための3Dシーンの自動生成は、何十年にもわたって重要な研究課題となっている。
しかし、既存の手法は、ポストホックの単純化による高ポリメッシュモデリングか、巨大な3Dガウスのどちらかに依存しており、複雑なパイプラインや限られたビジュアルリアリズムをもたらす。
本稿では、このような徹底的なモデリングは、魅力的な没入感体験を実現するために不要であることを示す。
我々は,コンパクトでフォトリアリスティックな世界モデリングのためのエージェント誘導フレームワークであるImmerseGenを紹介する。
ImmerseGenは、軽量な幾何学的プロキシ、すなわち単純化された地形と看板メッシュの階層的な構成としてシーンを表現し、これらのプロキシにRGBAテクスチャを合成することによって、フォトリアリスティックな外観を生成する。
具体的には、ユーザ中心のベースワールド合成のための地形条件付きテクスチャと、中・前景シーンのためのRGBAアセットテクスチャを提案する。
この改革にはいくつかの利点がある。
一 エージェントが、シーンとシームレスに融合したコヒーレントなテクスチャを生産する際に、生成モデルをガイドできるようにすることにより、モデリングを簡易化する。
二 プロキシにフォトリアリスティックなテクスチャを直接合成し、劣化することなく視覚的品質を維持することにより、複雑な幾何学的創造及び決定をバイパスする。
(iii)モバイルVRヘッドセットのリアルタイムレンダリングに適したコンパクトな表現を可能にする。
テキストプロンプトからシーン生成を自動化するために,空間推論の改善と正確な資産配置のためのセマンティックグリッド解析により拡張されたVLMベースのモデリングエージェントを導入する。
ImmerseGenはさらに、動的エフェクトと周囲のオーディオでシーンを豊かにし、マルチセンス没入をサポートする。
シーン生成とライブVRの展示実験により、ImmerseGenは従来の方法に比べて優れたフォトリアリズム、空間コヒーレンス、レンダリング効率を実現することが示された。
プロジェクトWebページ: https://immersegen.github.io.com
関連論文リスト
- EnvGS: Modeling View-Dependent Appearance with Environment Gaussian [78.74634059559891]
EnvGSは、環境の反射を捉えるための明示的な3D表現として、ガウスプリミティブのセットを利用する新しいアプローチである。
これらの環境を効率的にレンダリングするために,高速レンダリングにGPUのRTコアを利用するレイトレーシングベースのリフレクションを開発した。
複数の実世界および合成データセットから得られた結果は,本手法がより詳細な反射を生成することを示す。
論文 参考訳(メタデータ) (2024-12-19T18:59:57Z) - Skyeyes: Ground Roaming using Aerial View Images [9.159470619808127]
地上画像のシーケンスを生成するための新しいフレームワークであるSkyeyesを紹介した。
より具体的には、3D表現とビュー一貫した生成モデルを組み合わせることで、生成された画像間のコヒーレンスを保証する。
画像は、空間的時間的コヒーレンスとリアリズムを改善し、空間的視点からシーンの理解と可視化を強化する。
論文 参考訳(メタデータ) (2024-09-25T07:21:43Z) - Real-Time Neural Rasterization for Large Scenes [39.198327570559684]
本研究では,大規模シーンのリアルタイムなノベルビュー合成のための新しい手法を提案する。
既存のニューラルネットワークレンダリング手法は現実的な結果を生成するが、主に小規模なシーンで機能する。
私たちの仕事は、大規模な現実世界のシーンのリアルタイムレンダリングを可能にする最初のものです。
論文 参考訳(メタデータ) (2023-11-09T18:59:10Z) - FLARE: Fast Learning of Animatable and Relightable Mesh Avatars [64.48254296523977]
私たちのゴールは、幾何学的に正確で、リアルで、楽しい、現在のレンダリングシステムと互換性のあるビデオから、パーソナライズ可能な3Dアバターを効率的に学習することです。
単眼ビデオからアニマタブルアバターとリライトブルアバターの作成を可能にする技術であるFLAREを紹介する。
論文 参考訳(メタデータ) (2023-10-26T16:13:00Z) - DreamSpace: Dreaming Your Room Space with Text-Driven Panoramic Texture
Propagation [31.353409149640605]
本稿では没入型VR体験のための3次元テクスチャ生成のための新しいフレームワークを提案する。
生き残るために、我々は秘密の領域でテクスチャの手がかりを分け、現実世界の環境でネットワークテクスチャを学ぶ。
論文 参考訳(メタデータ) (2023-10-19T19:29:23Z) - NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion
Models [85.20004959780132]
複雑な3D環境を合成できる生成モデルであるNeuralField-LDMを紹介する。
NeuralField-LDMは,条件付きシーン生成,シーンインペインティング,シーンスタイル操作など,さまざまな3Dコンテンツ作成アプリケーションに利用できることを示す。
論文 参考訳(メタデータ) (2023-04-19T16:13:21Z) - Texture Generation Using Graph Generative Adversarial Network And
Differentiable Rendering [0.6439285904756329]
既存の3次元メッシュモデルのための新しいテクスチャ合成は、シミュレータのフォトリアルアセット生成に向けた重要なステップである。
既存の手法は、カメラの観点からの3次元空間の投影である2次元画像空間で本質的に機能する。
本稿では,BlenderやUnreal Engineといったツールを用いて,与えられた3Dメッシュモデルに直接統合可能なテクスチャを生成可能なGGAN(Graph Generative Adversarial Network)という新しいシステムを提案する。
論文 参考訳(メタデータ) (2022-06-17T04:56:03Z) - Learning Indoor Inverse Rendering with 3D Spatially-Varying Lighting [149.1673041605155]
1枚の画像からアルベド, 正常, 深さ, 3次元の空間的変化を共同で推定する問題に対処する。
既存のほとんどの方法は、シーンの3D特性を無視して、画像から画像への変換としてタスクを定式化する。
本研究では3次元空間変動照明を定式化する統合学習ベースの逆フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:29:03Z) - SMPLpix: Neural Avatars from 3D Human Models [56.85115800735619]
従来のレンダリングと画素空間で動作する最新の生成ネットワークのギャップを埋める。
我々は、スパースな3Dメッシュ頂点をフォトリアリスティックな画像に変換するネットワークを訓練する。
我々は,フォトリアリズムのレベルとレンダリング効率の両面で,従来の微分可能よりも優位性を示す。
論文 参考訳(メタデータ) (2020-08-16T10:22:00Z) - Photorealism in Driving Simulations: Blending Generative Adversarial
Image Synthesis with Rendering [0.0]
我々は、運転シミュレーションの視覚的忠実度を改善するために、ハイブリッドな生成型ニューラルネットワークパイプラインを導入する。
テクスチャのない単純なオブジェクトモデルからなる3次元シーンから2次元のセマンティック画像を生成する。
これらのセマンティックイメージは、現実の運転シーンで訓練された最先端のジェネレーティブ・アドリア・ネットワーク(GAN)を用いて、フォトリアリスティックなRGBイメージに変換される。
論文 参考訳(メタデータ) (2020-07-31T03:25:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。