論文の概要: Deep 3D Mask Volume for View Synthesis of Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2108.13408v1
- Date: Mon, 30 Aug 2021 17:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:25:23.407182
- Title: Deep 3D Mask Volume for View Synthesis of Dynamic Scenes
- Title(参考訳): ダイナミックシーンのビュー合成のための深部3次元マスクボリューム
- Authors: Kai-En Lin and Lei Xiao and Feng Liu and Guowei Yang and Ravi
Ramamoorthi
- Abstract要約: 120FPSのカスタム10カメラリグでキャプチャしたマルチビュービデオデータセットを提案する。
データセットには、屋外シーンにおけるさまざまな視覚効果と人間の相互作用を示す96の高品質なシーンが含まれている。
我々は,静的カメラで捉えた動的シーンの双眼映像から時間的に安定な視線外挿を可能にする新しいアルゴリズムであるDeep 3D Mask Volumeを開発した。
- 参考スコア(独自算出の注目度): 49.45028543279115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image view synthesis has seen great success in reconstructing photorealistic
visuals, thanks to deep learning and various novel representations. The next
key step in immersive virtual experiences is view synthesis of dynamic scenes.
However, several challenges exist due to the lack of high-quality training
datasets, and the additional time dimension for videos of dynamic scenes. To
address this issue, we introduce a multi-view video dataset, captured with a
custom 10-camera rig in 120FPS. The dataset contains 96 high-quality scenes
showing various visual effects and human interactions in outdoor scenes. We
develop a new algorithm, Deep 3D Mask Volume, which enables temporally-stable
view extrapolation from binocular videos of dynamic scenes, captured by static
cameras. Our algorithm addresses the temporal inconsistency of disocclusions by
identifying the error-prone areas with a 3D mask volume, and replaces them with
static background observed throughout the video. Our method enables
manipulation in 3D space as opposed to simple 2D masks, We demonstrate better
temporal stability than frame-by-frame static view synthesis methods, or those
that use 2D masks. The resulting view synthesis videos show minimal flickering
artifacts and allow for larger translational movements.
- Abstract(参考訳): 画像ビュー合成は、深層学習と様々な新しい表現のおかげで、フォトリアリスティックな視覚を再構築することに成功した。
没入型仮想体験における次の重要なステップは、動的シーンのビュー合成である。
しかし、高品質なトレーニングデータセットの欠如、ダイナミックなシーンのビデオの時間次元の追加など、いくつかの課題が存在する。
この問題に対処するために,我々は,カスタム10カメラリグを120fpsで撮影したマルチビュービデオデータセットを紹介する。
データセットには、屋外シーンにおけるさまざまな視覚効果と人間の相互作用を示す96の高品質なシーンが含まれている。
我々は,静的カメラで捉えた動的シーンの双眼映像から時間的に安定な視線外挿を可能にする新しいアルゴリズムであるDeep 3D Mask Volumeを開発した。
提案アルゴリズムは, 3次元マスク体積の誤差発生領域を同定し, 映像中の静止背景に置き換えることで, 排他的不整合に対処する。
簡単な2次元マスクとは対照的に3次元空間での操作が可能であり,フレーム単位の静的ビュー合成法や2次元マスクを用いたものよりも時間的安定性がよいことを示す。
その結果得られたビュー合成ビデオは、最小限のフリッカリングアーティファクトを示し、より大きな翻訳運動を可能にする。
関連論文リスト
- Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis [43.02778060969546]
制御可能な単分子動的ビュー合成パイプラインを提案する。
我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。
私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
論文 参考訳(メタデータ) (2024-05-23T17:59:52Z) - Fast View Synthesis of Casual Videos with Soup-of-Planes [24.35962788109883]
シーンのダイナミックスやパララックスの欠如といった課題のため、Wild ビデオからの新たなビュー合成は困難である。
本稿では,モノクロ映像から高品質な新規ビューを効率よく合成するために,明示的な映像表現を再考する。
本手法は,高品質で最先端の手法に匹敵する品質の動画から高品質な新奇なビューをレンダリングすると同時に,トレーニングの100倍高速でリアルタイムレンダリングを可能にする。
論文 参考訳(メタデータ) (2023-12-04T18:55:48Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z) - Neural Radiance Flow for 4D View Synthesis and Video Processing [59.9116932930108]
本稿では,RGB画像から動的シーンの4次元空間時空間表現を学習する手法を提案する。
私たちのアプローチの鍵は、シーンの3D占有率、輝度、およびダイナミクスをキャプチャすることを学ぶ神経暗黙表現を使用することです。
論文 参考訳(メタデータ) (2020-12-17T17:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。