論文の概要: Generative World Renderer
- arxiv url: http://arxiv.org/abs/2604.02329v1
- Date: Thu, 02 Apr 2026 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.994638
- Title: Generative World Renderer
- Title(参考訳): ジェネレーティブワールドレンダ
- Authors: Zheng-Hui Huang, Zhixiang Wang, Jiaming Tan, Ruihan Yu, Yidan Zhang, Bo Zheng, Yu-Lun Liu, Yung-Yu Chuang, Kaipeng Zhang,
- Abstract要約: 視覚的に複雑なAAAゲームから得られた大規模でダイナミックなデータセットを紹介する。
新たなデュアルスクリーンキャプチャ手法を用いて,同期RGBと5つのGバッファチャネルの4M連続フレーム(720p/30 FPS)を抽出した。
このデータセットは一意に双方向の一般化を前進させ、堅牢な地平線幾何学と材料分解を可能にした。
- 参考スコア(独自算出の注目度): 36.885671259896505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling generative inverse and forward rendering to real-world scenarios is bottlenecked by the limited realism and temporal coherence of existing synthetic datasets. To bridge this persistent domain gap, we introduce a large-scale, dynamic dataset curated from visually complex AAA games. Using a novel dual-screen stitched capture method, we extracted 4M continuous frames (720p/30 FPS) of synchronized RGB and five G-buffer channels across diverse scenes, visual effects, and environments, including adverse weather and motion-blur variants. This dataset uniquely advances bidirectional rendering: enabling robust in-the-wild geometry and material decomposition, and facilitating high-fidelity G-buffer-guided video generation. Furthermore, to evaluate the real-world performance of inverse rendering without ground truth, we propose a novel VLM-based assessment protocol measuring semantic, spatial, and temporal consistency. Experiments demonstrate that inverse renderers fine-tuned on our data achieve superior cross-dataset generalization and controllable generation, while our VLM evaluation strongly correlates with human judgment. Combined with our toolkit, our forward renderer enables users to edit styles of AAA games from G-buffers using text prompts.
- Abstract(参考訳): 生成的逆および前方レンダリングを実世界のシナリオにスケーリングすることは、既存の合成データセットの制限されたリアリズムと時間的コヒーレンスによってボトルネックとなる。
この永続的なドメインギャップを埋めるために、視覚的に複雑なAAAゲームからキュレートされた大規模でダイナミックなデータセットを導入します。
両面縫合法を用いて,RGBとGバッファチャネルの4M連続フレーム (720p/30 FPS) を多種多様なシーン, 視覚効果, 環境, 悪天候, 動きブルーのバリエーションを含む抽出した。
このデータセットは、高忠実度Gバッファ誘導ビデオ生成を容易にし、ロバスト・イン・ザ・ウィルド幾何学と材料分解を可能にし、双方向レンダリングを独自に進める。
さらに,実世界の逆レンダリングの性能を評価するために,意味的,空間的,時間的整合性を測定する新しいVLMベースのアセスメントプロトコルを提案する。
実験により、データに微調整された逆レンダラーは、より優れたクロスデータセットの一般化と制御可能な生成を実現し、VLM評価は人間の判断と強く相関していることが示された。
我々のツールキットと組み合わせることで、フォワードレンダラーはユーザーがテキストプロンプトを使ってGバッファからAAAゲームのスタイルを編集できる。
関連論文リスト
- MVInverse: Feed-forward Multi-view Inverse Rendering in Seconds [19.94963757122156]
多視点逆レンダリングは、幾何、材料、照明を複数の視点で一貫して回復することを目的としている。
本稿では,RGB画像から空間変化アルベド,金属,粗さ,拡散シェーディング,表面正規度を直接予測するフィードフォワード多視点逆レンダリングフレームワークを提案する。
提案手法は,多視点整合性,物質的および正規推定品質,実世界の画像への一般化という観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-12-24T06:59:29Z) - Progressive Image Restoration via Text-Conditioned Video Generation [6.1671530509662205]
テキスト・ビデオ・モデルは強い時間的生成能力を示してきたが、画像復元の可能性は未解明のままである。
本研究では,映像の自然な動きではなく,再生軌跡を生成するように微調整することで,進行的な視覚的復元作業にCogVideoを再利用する。
超高分解能、分解性、低照度化のための合成データセットを構築し、各サンプルは劣化したフレームからクリーンなフレームへの段階的な遷移を描いている。
本モデルは,PSNR,SSIM,LPIPSなどの知覚的指標を改善するシーケンスを生成することによって,時間的進行と回復の質を関連付けることを学習する。
論文 参考訳(メタデータ) (2025-12-01T23:37:51Z) - A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild [72.0226493284814]
本稿では,デブロリングアドホックを行うイベントベースフレームの統一フレームワークを提案する。
我々のネットワークは、フレーム上の従来の最先端の手法、単一画像のデブロアリング、および両者のジョイントタスクを一貫して上回ります。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z) - Fast Non-Rigid Radiance Fields from Monocularized Data [66.74229489512683]
本稿では,不規則に変形するシーンを360度内向きに合成する新しい手法を提案する。
提案手法のコアとなるのは, 空間情報と時間情報の処理を分離し, 訓練と推論を高速化する効率的な変形モジュール, 2) 高速ハッシュ符号化ニューラルラジオアンスフィールドとしての標準シーンを表す静的モジュールである。
どちらの場合も,本手法は従来の手法よりもはるかに高速で,7分未満で収束し,1K解像度でリアルタイムのフレームレートを実現するとともに,生成した新規なビューに対して高い視覚的精度が得られる。
論文 参考訳(メタデータ) (2022-12-02T18:51:10Z) - Blur Interpolation Transformer for Real-World Motion from Blur [52.10523711510876]
本稿では, ボケの時間的相関を解き明かすために, 符号化されたブラー変換器(BiT)を提案する。
マルチスケール残留スウィン変圧器ブロックに基づいて、両端の時間的監督と時間対称なアンサンブル戦略を導入する。
さらに,1対1のぼやけたビデオペアの最初の実世界のデータセットを収集するハイブリッドカメラシステムを設計する。
論文 参考訳(メタデータ) (2022-11-21T13:10:10Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。