論文の概要: Learning Dynamic View Synthesis With Few RGBD Cameras
- arxiv url: http://arxiv.org/abs/2204.10477v1
- Date: Fri, 22 Apr 2022 03:17:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 14:19:36.419909
- Title: Learning Dynamic View Synthesis With Few RGBD Cameras
- Title(参考訳): 少数のrgbdカメラによるダイナミックビュー合成の学習
- Authors: Shengze Wang, YoungJoong Kwon, Yuan Shen, Qian Zhang, Andrei State,
Jia-Bin Huang, Henry Fuchs
- Abstract要約: 本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
- 参考スコア(独自算出の注目度): 60.36357774688289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There have been significant advancements in dynamic novel view synthesis in
recent years. However, current deep learning models often require (1) prior
models (e.g., SMPL human models), (2) heavy pre-processing, or (3) per-scene
optimization. We propose to utilize RGBD cameras to remove these limitations
and synthesize free-viewpoint videos of dynamic indoor scenes. We generate
feature point clouds from RGBD frames and then render them into free-viewpoint
videos via a neural renderer. However, the inaccurate, unstable, and incomplete
depth measurements induce severe distortions, flickering, and ghosting
artifacts. We enforce spatial-temporal consistency via the proposed Cycle
Reconstruction Consistency and Temporal Stabilization module to reduce these
artifacts. We introduce a simple Regional Depth-Inpainting module that
adaptively inpaints missing depth values to render complete novel views.
Additionally, we present a Human-Things Interactions dataset to validate our
approach and facilitate future research. The dataset consists of 43 multi-view
RGBD video sequences of everyday activities, capturing complex interactions
between human subjects and their surroundings. Experiments on the HTI dataset
show that our method outperforms the baseline per-frame image fidelity and
spatial-temporal consistency. We will release our code, and the dataset on the
website soon.
- Abstract(参考訳): 近年,ダイナミックノベルビュー合成の進歩がみられた。
しかし、現在のディープラーニングモデルは、(1)先行モデル(例えば、SMPL人間モデル)、(2)重い前処理、(3)シーンごとの最適化を必要とすることが多い。
本稿では,RGBDカメラを用いてこれらの制限を取り除き,ダイナミック屋内シーンの視点映像を合成することを提案する。
我々はRGBDフレームから特徴点雲を生成し、それをニューラルレンダラーを介して自由視点ビデオにレンダリングする。
しかし、不正確で不安定で不完全な深さの測定は、激しい歪曲、フリック、ゴーストアーティファクトを引き起こす。
提案する周期再構成整合性モジュールと時間安定化モジュールを用いて時空間整合性を適用し,これらのアーティファクトを削減する。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
さらに,我々のアプローチを検証し,今後の研究を促進するためのヒューマンインタラクションデータセットを提案する。
データセットは43のマルチビューRGBDビデオシーケンスで構成され、人間と周囲の複雑な相互作用をキャプチャする。
HTIデータセットを用いた実験により,本手法はフレーム毎の画質と空間時間的一貫性に優れることがわかった。
近いうちにコードをリリースし、webサイトでデータセットを公開します。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video [53.83936023443193]
本稿では,スマートフォンのキャプチャなどのモノクロ映像から動的に新しいビューを合成する手法を導入することにより,この分野に貢献する。
我々のアプローチは、局所的な幾何学と外観を別個のハッシュエンコードされたニューラル特徴グリッドにエンコードする暗黙の時間条件のポイントクラウドである、$textitdynamic Neural point cloudとして表現されている。
論文 参考訳(メタデータ) (2024-06-14T14:35:44Z) - CTNeRF: Cross-Time Transformer for Dynamic Neural Radiance Field from Monocular Video [25.551944406980297]
複雑でダイナミックなシーンのモノクロ映像から高品質な新しいビューを生成するための新しいアプローチを提案する。
物体の動きの特徴を集約するために,時間領域と周波数領域の両方で動作するモジュールを導入する。
実験により,動的シーンデータセットにおける最先端手法に対する大幅な改善が示された。
論文 参考訳(メタデータ) (2024-01-10T00:40:05Z) - DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。
本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。
実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T21:34:44Z) - RGB-D Mapping and Tracking in a Plenoxel Radiance Field [5.239559610798646]
ビュー合成モデルと3次元再構成モデルの間に重要な相違点を示す。
また、一般的な外向きのシーンにおける正確な幾何学をモデル化するために、奥行きセンサが不可欠である理由についてもコメントする。
提案手法は,タスクのマッピングと追跡を両立させるとともに,競合するニューラルネットワークのアプローチよりも高速である。
論文 参考訳(メタデータ) (2023-07-07T06:05:32Z) - NSLF-OL: Online Learning of Neural Surface Light Fields alongside
Real-time Incremental 3D Reconstruction [0.76146285961466]
そこで本研究では,視線方向の小さな方向に対応できるニューラルサーフェス光場モデルを提案する。
我々のモデルは、リアルタイムな3次元再構成の他に、シーケンシャルなデータストリームを共有入力として、ニューラルネットワーク光場(NSLF)をオンラインで学習する。
オンライントレーニングに加えて、可視化のためにデータストリームを完了した後のリアルタイムレンダリングも提供する。
論文 参考訳(メタデータ) (2023-04-29T15:41:15Z) - DeVRF: Fast Deformable Voxel Radiance Fields for Dynamic Scenes [27.37830742693236]
本稿では,動的放射場を高速に学習するための新しい表現であるDeVRFを提案する。
実験により、DeVRFはオンパー高忠実度の結果で2桁のスピードアップを達成することが示された。
論文 参考訳(メタデータ) (2022-05-31T12:13:54Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - Class-agnostic Reconstruction of Dynamic Objects from Videos [127.41336060616214]
動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。
第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
論文 参考訳(メタデータ) (2021-12-03T18:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。