論文の概要: Single-View View Synthesis in the Wild with Learned Adaptive Multiplane
Images
- arxiv url: http://arxiv.org/abs/2205.11733v1
- Date: Tue, 24 May 2022 02:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 15:08:08.586501
- Title: Single-View View Synthesis in the Wild with Learned Adaptive Multiplane
Images
- Title(参考訳): 学習型適応多面体画像を用いた野生単眼映像合成
- Authors: Yuxuan Han, Ruicheng Wang, Jiaolong Yang
- Abstract要約: 既存の手法では, 単分子深度推定と層状深度表現による色塗布による有望な結果が示されている。
マルチプレーン画像(MPI)表現に基づく新しい手法を提案する。
合成データと実データの両方の実験により、我々のトレーニングされたモデルは驚くほどうまく機能し、最先端の結果が得られます。
- 参考スコア(独自算出の注目度): 15.614631883233898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper deals with the challenging task of synthesizing novel views for
in-the-wild photographs. Existing methods have shown promising results
leveraging monocular depth estimation and color inpainting with layered depth
representations. However, these methods still have limited capability to handle
scenes with complex 3D geometry. We propose a new method based on the
multiplane image (MPI) representation. To accommodate diverse scene layouts in
the wild and tackle the difficulty in producing high-dimensional MPI contents,
we design a network structure that consists of two novel modules, one for plane
depth adjustment and another for depth-aware color prediction. The former
adjusts the initial plane positions using the RGBD context feature and an
attention mechanism. Given adjusted depth values, the latter predicts the color
and density for each plane separately with proper inter-plane interactions
achieved via a feature masking strategy. To train our method, we construct
large-scale stereo training data using only unconstrained single-view image
collections by a simple yet effective warp-back strategy. The experiments on
both synthetic and real datasets demonstrate that our trained model works
remarkably well and achieves state-of-the-art results.
- Abstract(参考訳): 本論文は,地中写真のための新しいビューを合成する難題について論じる。
既存の手法では, 単分子深度推定と層状深度表現による色塗布による有望な結果を示している。
しかし、これらの手法は複雑な3次元幾何学でシーンを扱う能力に制限がある。
本論文では,マルチプレーン画像(mpi)表現に基づく新しい手法を提案する。
野生の多様なシーンレイアウトに対応し,高次元mpiコンテンツ作成の難しさに対処すべく,平面深度調整用と奥行き認識色予測用の2つの新規モジュールからなるネットワーク構造を設計した。
前者はrgbdコンテキスト特徴と注意機構を用いて初期平面位置を調整する。
調整された深さ値が与えられた場合、後者は特徴マスキング戦略によって達成された適切な平面間相互作用で各平面の色と密度を別々に予測する。
提案手法を訓練するために,制約のない単一視点画像のみを用いた大規模ステレオトレーニングデータを構築した。
合成データと実データの両方の実験により、我々のトレーニングされたモデルは驚くほどうまく機能し、最先端の結果が得られます。
関連論文リスト
- SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文 参考訳(メタデータ) (2023-09-12T15:33:09Z) - Lightweight Monocular Depth Estimation [4.19709743271943]
画像セグメンテーションネットワークのUnet構造を入力として,単一のRGB画像のみを与えられた各画素の深さ値を予測するために,軽量な機械学習モデルを構築した。
提案手法は比較的高精度かつ低ルート平均二乗誤差を実現する。
論文 参考訳(メタデータ) (2022-12-21T21:05:16Z) - SLIDE: Single Image 3D Photography with Soft Layering and Depth-aware
Inpainting [54.419266357283966]
シングルイメージの3D写真は、視聴者が新しい視点から静止画を見ることを可能にする。
最近のアプローチでは、単分子深度ネットワークと塗装ネットワークを組み合わせることで、説得力のある結果が得られる。
単一画像3D撮影のためのモジュール・統一システムであるSLIDEについて述べる。
論文 参考訳(メタデータ) (2021-09-02T16:37:20Z) - RGBD-Net: Predicting color and depth images for novel views synthesis [46.233701784858184]
RGBD-Netは,対象のポーズの深度マップとカラーイメージをマルチスケールで予測するために提案される。
その結果、RGBD-Netは、これまで見つからなかったデータに対してよく一般化されていることが示唆された。
論文 参考訳(メタデータ) (2020-11-29T16:42:53Z) - Deep Multi Depth Panoramas for View Synthesis [70.9125433400375]
本稿では,複数のRGBD$alpha$panoramasからなる新しいシーン表現であるMultiple Depth Panorama(MDP)を提案する。
MDPは従来の3Dシーン表現よりもコンパクトであり、高品質で効率的な新しいビューレンダリングを可能にする。
論文 参考訳(メタデータ) (2020-08-04T20:29:15Z) - 3D Photography using Context-aware Layered Depth Inpainting [50.66235795163143]
本稿では、1枚のRGB-D入力画像を3D写真に変換する方法を提案する。
学習に基づく着色モデルでは,新しい局所的な色と深度を隠蔽領域に合成する。
結果の3D写真は、モーションパララックスで効率よくレンダリングできる。
論文 参考訳(メタデータ) (2020-04-09T17:59:06Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Deep 3D Capture: Geometry and Reflectance from Sparse Multi-View Images [59.906948203578544]
本稿では,任意の物体の高品質な形状と複雑な空間変化を持つBRDFを再構成する学習に基づく新しい手法を提案する。
まず、深層多視点ステレオネットワークを用いて、ビューごとの深度マップを推定する。
これらの深度マップは、異なるビューを粗く整列するために使用される。
本稿では,新しい多視点反射率推定ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-27T21:28:54Z) - Learning light field synthesis with Multi-Plane Images: scene encoding
as a recurrent segmentation task [30.058283056074426]
本稿では、入力ビューのスパースセットを多面画像(MPI)に変換することで、大規模なベースライン光場からのビュー合成の問題に対処する。
利用可能なデータセットは少ないため、広範なトレーニングを必要としない軽量ネットワークを提案する。
我々のモデルは、RGB層を推定することを学ぶのではなく、MPIアルファ層内のシーン幾何学を符号化するだけであり、それはセグメンテーションタスクに帰着する。
論文 参考訳(メタデータ) (2020-02-12T14:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。