論文の概要: Coarse-to-Real: Generative Rendering for Populated Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2601.22301v1
- Date: Thu, 29 Jan 2026 20:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.049978
- Title: Coarse-to-Real: Generative Rendering for Populated Dynamic Scenes
- Title(参考訳): Coarse-to-Real: 人口動態シーンのための生成レンダリング
- Authors: Gonzalo Gomez-Nogales, Yicong Hong, Chongjian Ge, Marc Comino-Trinidad, Dan Casas, Yi Zhou,
- Abstract要約: 本稿では,C2R(Coarse-to-Real)について述べる。
提案手法では, シーンレイアウト, カメラモーション, 人体軌跡を明瞭に制御するために, 粗い3次元レンダリングを用いる。
最小限の3D入力から、時間的に一貫性があり、コントロール可能で、リアルな都市シーンビデオを生成する。
- 参考スコア(独自算出の注目度): 22.450051108066216
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Traditional rendering pipelines rely on complex assets, accurate materials and lighting, and substantial computational resources to produce realistic imagery, yet they still face challenges in scalability and realism for populated dynamic scenes. We present C2R (Coarse-to-Real), a generative rendering framework that synthesizes real-style urban crowd videos from coarse 3D simulations. Our approach uses coarse 3D renderings to explicitly control scene layout, camera motion, and human trajectories, while a learned neural renderer generates realistic appearance, lighting, and fine-scale dynamics guided by text prompts. To overcome the lack of paired training data between coarse simulations and real videos, we adopt a two-phase mixed CG-real training strategy that learns a strong generative prior from large-scale real footage and introduces controllability through shared implicit spatio-temporal features across domains. The resulting system supports coarse-to-fine control, generalizes across diverse CG and game inputs, and produces temporally consistent, controllable, and realistic urban scene videos from minimal 3D input. We will release the model and project webpage at https://gonzalognogales.github.io/coarse2real/.
- Abstract(参考訳): 伝統的なレンダリングパイプラインは、複雑な資産、正確な材料と照明、そして現実的なイメージを生み出すためのかなりの計算資源に依存しているが、人口密度の高いダイナミックシーンではスケーラビリティとリアリズムの課題に直面している。
C2R(Coarse-to-Real)は,粗い3Dシミュレーションから実スタイルの都市群集映像を合成するレンダリングフレームワークである。
提案手法では,シーンレイアウト,カメラモーション,人体軌道を明瞭に制御するために粗い3Dレンダリングを用い,学習したニューラルレンダラーはテキストプロンプトによって誘導される現実的な外観,照明,そして微細なダイナミックスを生成する。
粗いシミュレーションと実動画間のペアリングトレーニングデータの欠如を克服するため,大規模実映像から強い生成性を学び,ドメイン間の暗黙時空間的特徴を共有することによって制御性を導入する2相混合CG実映像学習戦略を採用した。
得られたシステムは粗粒度制御をサポートし、多様なCGおよびゲーム入力を一般化し、最小限の3D入力から時間的に一貫性があり、制御可能で、現実的な都市シーンビデオを生成する。
モデルとプロジェクトのWebページはhttps://gonzalognogales.github.io/coarse2real/で公開します。
関連論文リスト
- Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation [87.91642226587294]
現在の学習に基づく3D再構成手法は、キャプチャーされた実世界のマルチビューデータに頼っている。
本稿では,ビデオ拡散モデルにおける暗黙的な3次元知識を,明示的な3次元ガウススプラッティング(3DGS)表現に蒸留する自己蒸留フレームワークを提案する。
本フレームワークは静的・動的3次元シーン生成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T17:58:01Z) - DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation [78.26308457952636]
本稿では,自律運転シミュレーションの限界を克服する軽量な1ステップ拡散モデルであるR3D2を紹介する。
シャドウや一貫した照明など、妥当なレンダリング効果を生み出すことで、既存のシーンに完全な3Dアセットを現実的に挿入することができる。
R3D2は挿入されたアセットの現実性を大幅に向上させ,テキストから3Dへのアセット挿入やクロスシーン/データセットオブジェクト転送といったユースケースを可能にした。
論文 参考訳(メタデータ) (2025-06-09T14:50:19Z) - Learning 3D-Gaussian Simulators from RGB Videos [20.250137125726265]
3DGSimは学習した3Dシミュレータで、マルチビューのRGBビデオから物理的相互作用を学習する。
3Dシーンの再構成、粒子動力学予測、ビデオ合成をエンドツーエンドのトレーニングフレームワークに統合する。
論文 参考訳(メタデータ) (2025-03-31T12:33:59Z) - MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling [21.1274747033854]
キャラクタビデオ合成は、ライフライクなシーン内でアニマタブルなキャラクターのリアルなビデオを作成することを目的としている。
Miloは、文字ビデオを制御可能な属性で合成できる新しいフレームワークである。
Miloは、任意のキャラクタへの高度なスケーラビリティ、新しい3Dモーションへの一般化、インタラクティブな現実世界のシーンへの適用性を実現している。
論文 参考訳(メタデータ) (2024-09-24T15:00:07Z) - TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - Learning 3D Particle-based Simulators from RGB-D Videos [15.683877597215494]
本研究では,シミュレータを直接観測から学習する手法を提案する。
視覚粒子ダイナミクス(VPD)は、3Dシーンの潜在粒子ベースの表現を共同で学習する。
既存の2Dビデオ予測モデルとは異なり、VPDの3D構造はシーン編集と長期予測を可能にする。
論文 参考訳(メタデータ) (2023-12-08T20:45:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。