論文の概要: V4D: Voxel for 4D Novel View Synthesis
- arxiv url: http://arxiv.org/abs/2205.14332v1
- Date: Sat, 28 May 2022 04:45:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 16:12:38.428426
- Title: V4D: Voxel for 4D Novel View Synthesis
- Title(参考訳): v4d:4次元新規ビュー合成のためのvoxel
- Authors: Wanshui Gan, Hongbin Xu, Yi Huang, Shifeng Chen, Naoto Yokoya
- Abstract要約: 本稿では,V4Dと略される3次元ボクセルによる4次元神経放射場をモデル化する手法を提案する。
提案したLUTsベースの改良モジュールは,計算コストの少ない性能向上を実現する。
計算負荷を無視して性能向上を実現する4次元データに対して,より効率的な条件付き位置符号化を提案する。
- 参考スコア(独自算出の注目度): 23.713080194908745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural radiance fields have made a remarkable breakthrough in the novel view
synthesis task at the 3D static scene. However, for the 4D circumstance (e.g.,
dynamic scene), the performance of the existing method is still limited by the
capacity of the neural network, typically in a multilayer perceptron network
(MLP). In this paper, we present the method to model the 4D neural radiance
field by the 3D voxel, short as V4D, where the 3D voxel has two formats. The
first one is to regularly model the bounded 3D space and then use the sampled
local 3D feature with the time index to model the density field and the texture
field. The second one is in look-up tables (LUTs) format that is for the
pixel-level refinement, where the pseudo-surface produced by the volume
rendering is utilized as the guidance information to learn a 2D pixel-level
refinement mapping. The proposed LUTs-based refinement module achieves the
performance gain with a little computational cost and could serve as the
plug-and-play module in the novel view synthesis task. Moreover, we propose a
more effective conditional positional encoding toward the 4D data that achieves
performance gain with negligible computational burdens. Extensive experiments
demonstrate that the proposed method achieves state-of-the-art performance by a
large margin. At last, the proposed V4D is also a computational-friendly method
in both the training and testing phase, where we achieve 2 times faster in the
training phase and 10 times faster in the inference phase compared with the
state-of-the-art method.
- Abstract(参考訳): ニューラルレイディアンス場は3次元静的シーンにおける新しいビュー合成タスクにおいて画期的なブレークスルーをもたらした。
しかし、4次元の状況(例えば動的シーン)では、既存の手法の性能はニューラルネットワークの能力によって制限され、一般的には多層パーセプトロンネットワーク(mlp)である。
本稿では、3Dボクセルが2つのフォーマットを持つV4Dと略される3Dボクセルによる4Dニューラルラジアンス場をモデル化する手法を提案する。
まず、境界付けられた3d空間を定期的にモデル化し、次にタイムインデックスでサンプル化された局所3d特徴を使用して密度場とテクスチャ場をモデル化する。
2つめはルックアップテーブル(luts)形式のピクセルレベルのリファインメントで、ボリュームレンダリングによって生成された擬似表面をガイダンス情報として活用し、2dピクセルレベルのリファインメントマッピングを学ぶ。
LUTsベースの改良モジュールは計算コストの少ない性能向上を実現し,新しいビュー合成タスクにおいてプラグイン・アンド・プレイモジュールとして機能する。
また、4Dデータに対するより効率的な条件付き位置符号化を提案し、計算負荷を無視して性能向上を実現する。
大規模な実験により,提案手法は最先端の性能を高いマージンで達成することを示した。
最後に,提案するv4dは,トレーニングフェーズとテストフェーズの両方において計算フレンドリな手法であり,トレーニングフェーズでは2倍,推論フェーズでは10倍高速である。
関連論文リスト
- Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - SLS4D: Sparse Latent Space for 4D Novel View Synthesis [13.73892118198658]
既存の動的NeRFは通常、変形場に合うように局所的な密度の格子を利用する。
4次元空間は本質的にスパースである。
学習可能なスパース潜在空間(SLS4D)を用いて4次元シーンを表現することを提案する。
論文 参考訳(メタデータ) (2023-12-15T12:31:20Z) - Gaussian-Flow: 4D Reconstruction with Dynamic 3D Gaussian Particle [9.082693946898733]
高速な動的シーン再構成と,マルチビューおよびモノクロビデオからのリアルタイムレンダリングのための新しいポイントベースアプローチを提案する。
学習速度の遅さとレンダリング速度によって妨げられるNeRFベースのアプローチとは対照的に,我々はポイントベース3Dガウススプラッティング(3DGS)の最近の進歩を活用している。
提案手法は,フレームごとの3DGSモデリングと比較して,5倍のトレーニング速度を実現し,大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2023-12-06T11:25:52Z) - Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled
Feature Fields [56.29505969704035]
ニューラル・ラジアンス・フィールドを使用する手法は、新しいビュー合成のような従来のタスクに汎用的である。
3次元ガウシアンスプラッティングは, 実時間ラディアンス場レンダリングにおける最先端の性能を示した。
この問題を効果的に回避するために,アーキテクチャとトレーニングの変更を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:46:30Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Smaller3d: Smaller Models for 3D Semantic Segmentation Using Minkowski
Engine and Knowledge Distillation Methods [0.0]
本稿では, 知識蒸留技術, 特に3次元深層学習におけるスパーステンソルを応用して, 性能を維持しつつ, モデルサイズを小さくする手法を提案する。
我々は,異なるスパース畳み込みNNの最先端モデルの性能をシミュレートするために,標準的な手法や様々な損失の組み合わせを含む異なる損失関数を分析し,目的を定めている。
論文 参考訳(メタデータ) (2023-05-04T22:19:25Z) - Tensor4D : Efficient Neural 4D Decomposition for High-fidelity Dynamic
Reconstruction and Rendering [31.928844354349117]
動的シーンに対する効率的な4次元テンソル分解法を提案する。
本手法は,スパースビューカメラや単眼カメラから高品質な動的再構成とレンダリングを実現することができることを示す。
コードとデータセットはatliuyebin.com/tensor4d-tensor4d.htmlでリリースされる。
論文 参考訳(メタデータ) (2022-11-21T16:04:45Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z) - LoRD: Local 4D Implicit Representation for High-Fidelity Dynamic Human
Modeling [69.56581851211841]
そこで我々は,LoRDという,動的に衣を着る人間の局所的な4D暗黙表現を提案する。
私たちの重要な洞察は、ネットワークがローカルな部分レベルの表現の潜在コードを学ぶように促すことです。
LoRDは、4D人間を表現する能力が強く、実用上の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-08-18T03:49:44Z) - Neural Deformable Voxel Grid for Fast Optimization of Dynamic View
Synthesis [63.25919018001152]
動的シーンを扱うための高速な変形可能な放射場法を提案する。
本手法は訓練に20分しかかからないD-NeRFに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2022-06-15T17:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。