Fugu-MT 論文翻訳(概要): PS4PRO: Pixel-to-pixel Supervision for Photorealistic Rendering and Optimization

論文の概要: PS4PRO: Pixel-to-pixel Supervision for Photorealistic Rendering and Optimization

arxiv url: http://arxiv.org/abs/2505.22616v1
Date: Wed, 28 May 2025 17:35:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.76654
Title: PS4PRO: Pixel-to-pixel Supervision for Photorealistic Rendering and Optimization
Title（参考訳）: PS4PRO:フォトリアリスティックレンダリングと最適化のためのピクセル・ツー・ピクセル・スーパービジョン
Authors: Yezhi Shen, Qiuchen Zhai, Fengqing Zhu,
Abstract要約: 本稿では,ニューラルレンダリングのためのデータ拡張手法としてビデオフレームを提案する。 PS4PROは様々なビデオデータセットに基づいて訓練されており、暗黙的にカメラの動きと現実世界の3D幾何学をモデル化している。以上の結果から,静的シーンと動的シーンの両方における再構成性能が向上することが示唆された。
参考スコア（独自算出の注目度）: 3.53658451351123
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural rendering methods have gained significant attention for their ability to reconstruct 3D scenes from 2D images. The core idea is to take multiple views as input and optimize the reconstructed scene by minimizing the uncertainty in geometry and appearance across the views. However, the reconstruction quality is limited by the number of input views. This limitation is further pronounced in complex and dynamic scenes, where certain angles of objects are never seen. In this paper, we propose to use video frame interpolation as the data augmentation method for neural rendering. Furthermore, we design a lightweight yet high-quality video frame interpolation model, PS4PRO (Pixel-to-pixel Supervision for Photorealistic Rendering and Optimization). PS4PRO is trained on diverse video datasets, implicitly modeling camera movement as well as real-world 3D geometry. Our model performs as an implicit world prior, enriching the photo supervision for 3D reconstruction. By leveraging the proposed method, we effectively augment existing datasets for neural rendering methods. Our experimental results indicate that our method improves the reconstruction performance on both static and dynamic scenes.
Abstract（参考訳）: ニューラルレンダリング手法は、2D画像から3Dシーンを再構成する能力において大きな注目を集めている。中心となる考え方は、複数のビューを入力として、ビュー全体の幾何学的および外観の不確実性を最小化して、再構成されたシーンを最適化することである。しかし、復元品質は入力ビューの数によって制限される。この制限は、ある種の物体の角度が見えない複雑なダイナミックなシーンでさらに顕著に発音される。本稿では,ニューラルレンダリングのためのデータ拡張手法として,ビデオフレーム補間を提案する。さらに,高画質ビデオフレーム補間モデルPS4PRO (Pixel-to-Pixel Supervision for Photorealistic Rendering and Optimization) を設計した。 PS4PROは様々なビデオデータセットに基づいて訓練されており、暗黙的にカメラの動きと現実世界の3D幾何学をモデル化している。我々のモデルは,3次元再構成のための写真監督を充実させ,暗黙の世界として機能する。提案手法を有効活用することにより,ニューラルレンダリングのための既存のデータセットを効果的に拡張する。実験結果から,静的シーンと動的シーンの両方における再構成性能が向上することが示唆された。

関連論文リスト

GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文参考訳（メタデータ） (2025-06-30T15:24:27Z)
SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。 SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文参考訳（メタデータ） (2025-05-17T13:05:13Z)
IM-Portrait: Learning 3D-aware Video Diffusion for Photorealistic Talking Heads from Monocular Videos [33.12653115668027]
本手法は,幾何整合性を保証する多面体画像(MPI)を生成する。提案手法は, 1 つのデノナイジングプロセスを通じて, 最終的な出力を直接生成する。単眼ビデオから効果的に学習するために、ターゲットまたは基準カメラ空間で出力MPIをランダムに再構成するトレーニング機構を導入する。
論文参考訳（メタデータ） (2025-04-27T08:56:02Z)
VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [63.21396416244634]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文参考訳（メタデータ） (2025-01-03T18:52:36Z)
Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文参考訳（メタデータ） (2024-12-16T18:58:17Z)
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文参考訳（メタデータ） (2024-06-29T08:33:55Z)
UE4-NeRF:Neural Radiance Field for Real-Time Rendering of Large-Scale Scene [52.21184153832739]
本研究では,大規模シーンのリアルタイムレンダリングに特化して設計されたUE4-NeRFと呼ばれるニューラルレンダリングシステムを提案する。提案手法は,Unreal Engine 4 (UE4)のUnrealization Pipelineと組み合わせて,最大43FPSのフレームレートで4K解像度で大規模シーンのリアルタイムレンダリングを実現する。
論文参考訳（メタデータ） (2023-10-20T04:01:35Z)
Differentiable Blocks World: Qualitative 3D Decomposition by Rendering Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文参考訳（メタデータ） (2023-07-11T17:58:31Z)
FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文参考訳（メタデータ） (2023-05-31T20:58:46Z)
DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文参考訳（メタデータ） (2022-11-20T20:57:02Z)
PhotoScene: Photorealistic Material and Lighting Transfer for Indoor Scenes [84.66946637534089]
PhotoSceneは、シーンの入力画像を取得し、高品質な素材と同様の照明を備えたフォトリアリスティックデジタルツインを構築するフレームワークである。プロシージャ素材グラフを用いてシーン素材をモデル化し、そのようなグラフはフォトリアリスティックおよび解像度非依存の材料を表す。 ScanNet, SUN RGB-D, ストック写真からのオブジェクトとレイアウトの再構築について検討し, 高品質で完全に再現可能な3Dシーンを再現できることを実証した。
論文参考訳（メタデータ） (2022-07-02T06:52:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。