論文の概要: Structural Multiplane Image: Bridging Neural View Synthesis and 3D
Reconstruction
- arxiv url: http://arxiv.org/abs/2303.05937v1
- Date: Fri, 10 Mar 2023 14:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 14:54:19.207434
- Title: Structural Multiplane Image: Bridging Neural View Synthesis and 3D
Reconstruction
- Title(参考訳): 構造多面体画像:架橋ニューラルビュー合成と3次元再構成
- Authors: Mingfang Zhang, Jinglu Wang, Xiao Li, Yifei Huang, Yoichi Sato, Yan Lu
- Abstract要約: 平面構造が3次元シーンを簡潔に近似する構造的MPI(S-MPI)を導入する。
S-MPIを適用するという直感と要求にもかかわらず、RGBA層と平面の両方の高忠実度近似のような大きな課題が導入されている。
提案手法は,従来のMPIを用いたビュー合成法と平面再構成法より優れていた。
- 参考スコア(独自算出の注目度): 39.89856628467095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Multiplane Image (MPI), containing a set of fronto-parallel RGBA layers,
is an effective and efficient representation for view synthesis from sparse
inputs. Yet, its fixed structure limits the performance, especially for
surfaces imaged at oblique angles. We introduce the Structural MPI (S-MPI),
where the plane structure approximates 3D scenes concisely. Conveying RGBA
contexts with geometrically-faithful structures, the S-MPI directly bridges
view synthesis and 3D reconstruction. It can not only overcome the critical
limitations of MPI, i.e., discretization artifacts from sloped surfaces and
abuse of redundant layers, and can also acquire planar 3D reconstruction.
Despite the intuition and demand of applying S-MPI, great challenges are
introduced, e.g., high-fidelity approximation for both RGBA layers and plane
poses, multi-view consistency, non-planar regions modeling, and efficient
rendering with intersected planes. Accordingly, we propose a transformer-based
network based on a segmentation model. It predicts compact and expressive S-MPI
layers with their corresponding masks, poses, and RGBA contexts. Non-planar
regions are inclusively handled as a special case in our unified framework.
Multi-view consistency is ensured by sharing global proxy embeddings, which
encode plane-level features covering the complete 3D scenes with aligned
coordinates. Intensive experiments show that our method outperforms both
previous state-of-the-art MPI-based view synthesis methods and planar
reconstruction methods.
- Abstract(参考訳): 前面並列RGBA層を含む多面体画像(MPI)は、スパース入力からのビュー合成に効率的かつ効率的な表現である。
しかし、その固定構造は特に斜めの角度で撮影された表面において性能を制限している。
平面構造が3次元シーンを簡潔に近似する構造的MPI(S-MPI)を導入する。
RGBAコンテキストを幾何学的に忠実な構造とすることで、S-MPIは直接、合成と3D再構成を橋渡しする。
MPIの重要な限界、すなわち傾斜した表面からの離散化アーティファクトや冗長な層の乱用を克服するだけでなく、平面的な3D再構成も得る。
S-MPIを適用するという直感と要求にもかかわらず、RGBA層と平面ポーズの両方の高忠実度近似、多視点整合性、非平面領域モデリング、交差平面による効率的なレンダリングといった大きな課題が導入されている。
そこで本研究では,分割モデルに基づくトランスフォーマーベースネットワークを提案する。
コンパクトで表現力のあるS-MPI層を、対応するマスク、ポーズ、RGBAコンテキストで予測する。
非平面領域は、我々の統一フレームワークの特別なケースとして包括的に扱われる。
マルチビュー一貫性は、完全な3dシーンをカバーするプレーンレベルの機能をアラインされた座標でエンコードするグローバルプロキシ埋め込みを共有することで保証される。
集中的な実験により,従来のmpiベースのビュー合成法と平面再構成法を上回った。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - 3D Geometric Shape Assembly via Efficient Point Cloud Matching [59.241448711254485]
Proxy Match Transform (PMT) は、部品の配向面間の信頼性の高いマッチングを可能にする、高次特徴変換層である。
PMT を基盤として,幾何学的組立作業のための新しいフレームワーク Proxy Match TransformeR (PMTR) を導入する。
我々は,Breaking Badの大規模3次元幾何形状集合ベンチマークデータセットを用いてPMTRの評価を行った。
論文 参考訳(メタデータ) (2024-07-15T08:50:02Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - SAGS: Structure-Aware 3D Gaussian Splatting [53.6730827668389]
本研究では,シーンの形状を暗黙的に符号化する構造認識型ガウス散乱法(SAGS)を提案する。
SAGSは、最先端のレンダリング性能と、ベンチマークノベルビュー合成データセットのストレージ要件の削減を反映している。
論文 参考訳(メタデータ) (2024-04-29T23:26:30Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - Implicit Neural Deformation for Multi-View Face Reconstruction [43.88676778013593]
マルチビューRGB画像から新しい3次元顔再構成法を提案する。
従来の3次元形態素モデルに基づく手法とは異なり,本手法は暗黙の表現を利用してリッチな幾何学的特徴を符号化する。
いくつかのベンチマークデータセットに対する実験結果から,提案手法は代替ベースラインよりも優れ,最先端の手法に比べて優れた顔再構成結果が得られることが示された。
論文 参考訳(メタデータ) (2021-12-05T07:02:53Z) - OctField: Hierarchical Implicit Functions for 3D Modeling [18.488778913029805]
我々は3次元曲面の学習可能な階層的暗黙表現であるOctoFieldを提案し、メモリと計算予算の少ない複雑な曲面の高精度符号化を可能にする。
この目的を達成するために、曲面占有率と部分幾何学の豊かさに応じて3次元空間を適応的に分割する階層的オクツリー構造を導入する。
論文 参考訳(メタデータ) (2021-11-01T16:29:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。