論文の概要: Im4D: High-Fidelity and Real-Time Novel View Synthesis for Dynamic
Scenes
- arxiv url: http://arxiv.org/abs/2310.08585v1
- Date: Thu, 12 Oct 2023 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 08:15:16.944753
- Title: Im4D: High-Fidelity and Real-Time Novel View Synthesis for Dynamic
Scenes
- Title(参考訳): Im4D:ダイナミックシーンのための高忠実でリアルタイムな新しいビュー合成
- Authors: Haotong Lin, Sida Peng, Zhen Xu, Tao Xie, Xingyi He, Hujun Bao,
Xiaowei Zhou
- Abstract要約: グリッドベースの幾何表現と多視点画像に基づく外観表現からなるハイブリッド表現であるIm4Dを紹介する。
画像の特徴から3Dポイントの色を予測することを学習する,オリジナルのマルチビュービデオとネットワークによってシーンの外観を表現する。
我々は,512x512画像に対して,79.8 FPSのリアルタイムレンダリングを実現しつつ,レンダリング品質が向上し,効率よくトレーニングできるIm4Dの最先端性能を示す。
- 参考スコア(独自算出の注目度): 69.52540205439989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to tackle the challenge of dynamic view synthesis from
multi-view videos. The key observation is that while previous grid-based
methods offer consistent rendering, they fall short in capturing appearance
details of a complex dynamic scene, a domain where multi-view image-based
rendering methods demonstrate the opposite properties. To combine the best of
two worlds, we introduce Im4D, a hybrid scene representation that consists of a
grid-based geometry representation and a multi-view image-based appearance
representation. Specifically, the dynamic geometry is encoded as a 4D density
function composed of spatiotemporal feature planes and a small MLP network,
which globally models the scene structure and facilitates the rendering
consistency. We represent the scene appearance by the original multi-view
videos and a network that learns to predict the color of a 3D point from image
features, instead of memorizing detailed appearance totally with networks,
thereby naturally making the learning of networks easier. Our method is
evaluated on five dynamic view synthesis datasets including DyNeRF, ZJU-MoCap,
NHR, DNA-Rendering and ENeRF-Outdoor datasets. The results show that Im4D
exhibits state-of-the-art performance in rendering quality and can be trained
efficiently, while realizing real-time rendering with a speed of 79.8 FPS for
512x512 images, on a single RTX 3090 GPU.
- Abstract(参考訳): 本稿では,マルチビュービデオからの動的ビュー合成の課題に取り組むことを目的とする。
キーとなる観察は、従来のグリッドベースの手法が一貫したレンダリングを提供する一方で、複雑なダイナミックシーンの外観の詳細を捉えていないことである。
2つの世界のベストを組み合わせるために、グリッドベースの幾何表現と多視点イメージベースの外観表現からなるハイブリッドなシーン表現im4dを紹介する。
具体的には、動的幾何を時空間的特徴平面と小さなmlpネットワークからなる4次元密度関数として符号化し、シーン構造をグローバルにモデル化し、レンダリング一貫性を促進する。
画像特徴から3Dポイントの色を予測することを学習するネットワークと、オリジナルのマルチビュービデオによってシーンの外観を表現し、ネットワークの詳細な外観を記憶する代わりに、ネットワークの学習を自然に容易にする。
提案手法はDyNeRF, ZJU-MoCap, NHR, DNA-Rendering, ENeRF-Outdoorの5つの動的ビュー合成データセットを用いて評価した。
その結果、Im4Dはレンダリング品質の最先端性能を示し、効率よくトレーニングでき、RTX 3090 GPU上で512x512画像に対して79.8 FPSの速度でリアルタイムレンダリングを実現することができた。
関連論文リスト
- R2Human: Real-Time 3D Human Appearance Rendering from a Single Image [42.74145788079571]
R2Humanは、1つの画像から3D人間の外見をリアルタイムにレンダリングし、推測するための最初のアプローチである。
本稿では、可視領域の高忠実な色再現を行い、隠蔽領域に対して信頼性の高い色推定を行うエンド・ツー・エンド・ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-10T08:59:43Z) - Real-time Photorealistic Dynamic Scene Representation and Rendering with
4D Gaussian Splatting [8.078460597825142]
2次元画像から動的3Dシーンを再構成し、時間とともに多様なビューを生成することは、シーンの複雑さと時間的ダイナミクスのために困難である。
本研究では、4次元プリミティブの集合を明示的な幾何学と外観モデルを用いて最適化することにより、動的シーンの基本的な時間的レンダリング量を近似することを提案する。
我々のモデルは概念的に単純であり、異方性楕円によってパラメータ化され、空間と時間で任意に回転する4次元ガウスのパラメータと、4次元球面調和係数で表されるビュー依存および時間進化の外観から構成される。
論文 参考訳(メタデータ) (2023-10-16T17:57:43Z) - NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed
Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。
本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文 参考訳(メタデータ) (2022-10-28T07:11:05Z) - Coordinates Are NOT Lonely -- Codebook Prior Helps Implicit Neural 3D
Representations [29.756718435405983]
暗黙的な3D表現は、表面やシーンの再構築や新しいビュー合成において、印象的な成果を上げている。
ニューラル・レージアンス・フィールド(Neural Radiance Field、NeRF)とその変種のような既存のアプローチは、通常、密度の高い入力ビューを必要とする。
暗黙的な3次元表現のための座標モデルCoCo-INRを提案する。
論文 参考訳(メタデータ) (2022-10-20T11:13:50Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - IBRNet: Learning Multi-View Image-Based Rendering [67.15887251196894]
本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。
レンダリング時にソースビューを描画することで、画像ベースのレンダリングに関する古典的な作業に戻ります。
論文 参考訳(メタデータ) (2021-02-25T18:56:21Z) - Neural Radiance Flow for 4D View Synthesis and Video Processing [59.9116932930108]
本稿では,RGB画像から動的シーンの4次元空間時空間表現を学習する手法を提案する。
私たちのアプローチの鍵は、シーンの3D占有率、輝度、およびダイナミクスをキャプチャすることを学ぶ神経暗黙表現を使用することです。
論文 参考訳(メタデータ) (2020-12-17T17:54:32Z) - NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis [78.5281048849446]
本稿では,複雑なシーンの新たなビューを合成する手法を提案する。
提案アルゴリズムは,完全接続型(非畳み込み型)深層ネットワークを用いたシーンを表現する。
ボリュームレンダリングは自然に微分可能であるため、表現を最適化するのに必要な唯一の入力は、既知のカメラポーズを持つ画像の集合である。
論文 参考訳(メタデータ) (2020-03-19T17:57:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。