論文の概要: PS4PRO: Pixel-to-pixel Supervision for Photorealistic Rendering and Optimization
- arxiv url: http://arxiv.org/abs/2505.22616v1
- Date: Wed, 28 May 2025 17:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.76654
- Title: PS4PRO: Pixel-to-pixel Supervision for Photorealistic Rendering and Optimization
- Title(参考訳): PS4PRO:フォトリアリスティックレンダリングと最適化のためのピクセル・ツー・ピクセル・スーパービジョン
- Authors: Yezhi Shen, Qiuchen Zhai, Fengqing Zhu,
- Abstract要約: 本稿では,ニューラルレンダリングのためのデータ拡張手法としてビデオフレームを提案する。
PS4PROは様々なビデオデータセットに基づいて訓練されており、暗黙的にカメラの動きと現実世界の3D幾何学をモデル化している。
以上の結果から,静的シーンと動的シーンの両方における再構成性能が向上することが示唆された。
- 参考スコア(独自算出の注目度): 3.53658451351123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural rendering methods have gained significant attention for their ability to reconstruct 3D scenes from 2D images. The core idea is to take multiple views as input and optimize the reconstructed scene by minimizing the uncertainty in geometry and appearance across the views. However, the reconstruction quality is limited by the number of input views. This limitation is further pronounced in complex and dynamic scenes, where certain angles of objects are never seen. In this paper, we propose to use video frame interpolation as the data augmentation method for neural rendering. Furthermore, we design a lightweight yet high-quality video frame interpolation model, PS4PRO (Pixel-to-pixel Supervision for Photorealistic Rendering and Optimization). PS4PRO is trained on diverse video datasets, implicitly modeling camera movement as well as real-world 3D geometry. Our model performs as an implicit world prior, enriching the photo supervision for 3D reconstruction. By leveraging the proposed method, we effectively augment existing datasets for neural rendering methods. Our experimental results indicate that our method improves the reconstruction performance on both static and dynamic scenes.
- Abstract(参考訳): ニューラルレンダリング手法は、2D画像から3Dシーンを再構成する能力において大きな注目を集めている。
中心となる考え方は、複数のビューを入力として、ビュー全体の幾何学的および外観の不確実性を最小化して、再構成されたシーンを最適化することである。
しかし、復元品質は入力ビューの数によって制限される。
この制限は、ある種の物体の角度が見えない複雑なダイナミックなシーンでさらに顕著に発音される。
本稿では,ニューラルレンダリングのためのデータ拡張手法として,ビデオフレーム補間を提案する。
さらに,高画質ビデオフレーム補間モデルPS4PRO (Pixel-to-Pixel Supervision for Photorealistic Rendering and Optimization) を設計した。
PS4PROは様々なビデオデータセットに基づいて訓練されており、暗黙的にカメラの動きと現実世界の3D幾何学をモデル化している。
我々のモデルは,3次元再構成のための写真監督を充実させ,暗黙の世界として機能する。
提案手法を有効活用することにより,ニューラルレンダリングのための既存のデータセットを効果的に拡張する。
実験結果から,静的シーンと動的シーンの両方における再構成性能が向上することが示唆された。
関連論文リスト
- IM-Portrait: Learning 3D-aware Video Diffusion for Photorealistic Talking Heads from Monocular Videos [33.12653115668027]
本手法は,幾何整合性を保証する多面体画像(MPI)を生成する。
提案手法は, 1 つのデノナイジングプロセスを通じて, 最終的な出力を直接生成する。
単眼ビデオから効果的に学習するために、ターゲットまたは基準カメラ空間で出力MPIをランダムに再構成するトレーニング機構を導入する。
論文 参考訳(メタデータ) (2025-04-27T08:56:02Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [63.21396416244634]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。
再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。
提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。
本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文 参考訳(メタデータ) (2024-06-29T08:33:55Z) - UE4-NeRF:Neural Radiance Field for Real-Time Rendering of Large-Scale
Scene [52.21184153832739]
本研究では,大規模シーンのリアルタイムレンダリングに特化して設計されたUE4-NeRFと呼ばれるニューラルレンダリングシステムを提案する。
提案手法は,Unreal Engine 4 (UE4)のUnrealization Pipelineと組み合わせて,最大43FPSのフレームレートで4K解像度で大規模シーンのリアルタイムレンダリングを実現する。
論文 参考訳(メタデータ) (2023-10-20T04:01:35Z) - Differentiable Blocks World: Qualitative 3D Decomposition by Rendering
Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。
既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。
得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文 参考訳(メタデータ) (2023-07-11T17:58:31Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。