論文の概要: MonoPlane: Exploiting Monocular Geometric Cues for Generalizable 3D Plane Reconstruction
- arxiv url: http://arxiv.org/abs/2411.01226v1
- Date: Sat, 02 Nov 2024 12:15:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:46:19.328835
- Title: MonoPlane: Exploiting Monocular Geometric Cues for Generalizable 3D Plane Reconstruction
- Title(参考訳): MonoPlane: 汎用3次元平面再構成のための単眼幾何学的キューを爆発させる
- Authors: Wang Zhao, Jiachen Liu, Sheng Zhang, Yishu Li, Sili Chen, Sharon X Huang, Yong-Jin Liu, Hengkai Guo,
- Abstract要約: 本稿では,MonoPlaneという汎用的な3次元平面検出・再構成フレームワークを提案する。
まず、大規模な事前学習ニューラルネットワークを用いて、1つの画像から深度と表面の正常値を得る。
これらの特異な幾何学的手がかりを近接誘導RANSACフレームワークに組み込んで各平面インスタンスに順次適合させる。
- 参考スコア(独自算出の注目度): 37.481945507799594
- License:
- Abstract: This paper presents a generalizable 3D plane detection and reconstruction framework named MonoPlane. Unlike previous robust estimator-based works (which require multiple images or RGB-D input) and learning-based works (which suffer from domain shift), MonoPlane combines the best of two worlds and establishes a plane reconstruction pipeline based on monocular geometric cues, resulting in accurate, robust and scalable 3D plane detection and reconstruction in the wild. Specifically, we first leverage large-scale pre-trained neural networks to obtain the depth and surface normals from a single image. These monocular geometric cues are then incorporated into a proximity-guided RANSAC framework to sequentially fit each plane instance. We exploit effective 3D point proximity and model such proximity via a graph within RANSAC to guide the plane fitting from noisy monocular depths, followed by image-level multi-plane joint optimization to improve the consistency among all plane instances. We further design a simple but effective pipeline to extend this single-view solution to sparse-view 3D plane reconstruction. Extensive experiments on a list of datasets demonstrate our superior zero-shot generalizability over baselines, achieving state-of-the-art plane reconstruction performance in a transferring setting. Our code is available at https://github.com/thuzhaowang/MonoPlane .
- Abstract(参考訳): 本稿では,MonoPlaneという汎用的な3次元平面検出・再構成フレームワークを提案する。
従来の堅牢な推定器ベースのワーク(複数の画像やRGB-D入力を必要とする)や学習ベースのワーク(ドメインシフトに苦しむ)とは異なり、MonoPlaneは2つの世界のベストを組み合わせ、モノクロ幾何学的なキューに基づいた平面再構築パイプラインを構築し、正確で堅牢でスケーラブルな3D平面の検出と再構築を実現している。
具体的には、まず大規模な事前学習ニューラルネットワークを利用して、1つの画像から深度と表面の正常値を得る。
これらの特異な幾何学的手がかりを近接誘導RANSACフレームワークに組み込んで各平面インスタンスに順次適合させる。
我々は、RANSAC内のグラフを介して有効3次元点近接とそのような近接をモデル化し、ノイズの多い単分子深度から平面の嵌合を誘導し、続いて画像レベルの多平面関節最適化を行い、全ての平面インスタンス間の整合性を改善する。
さらに、この単一ビューソリューションをスパースビュー3次元平面再構成に拡張するために、単純だが効果的なパイプラインを設計する。
データセットのリストにおける広範囲な実験は、ベースラインよりも優れたゼロショットの一般化性を示し、転送設定で最先端の平面再構成性能を達成する。
私たちのコードはhttps://github.com/thuzhaowang/MonoPlaneで利用可能です。
関連論文リスト
- UniPlane: Unified Plane Detection and Reconstruction from Posed Monocular Videos [12.328095228008893]
単眼ビデオから平面検出と再構成を統一する新しい手法であるUniPlaneを提案する。
我々はトランスフォーマーベースのディープニューラルネットワークを構築し、環境のための3D機能ボリュームを共同で構築する。
実世界のデータセットの実験では、UniPlaneは平面検出と再構成の両方において最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2024-07-04T03:02:27Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - AirPlanes: Accurate Plane Estimation via 3D-Consistent Embeddings [26.845588648999417]
本研究では,3次元画像から平面面を推定する問題に対処する。
本稿では,平面へのクラスタリングにおける幾何を補完する多視点一貫した平面埋め込みを予測する手法を提案する。
我々は、ScanNetV2データセットの広範な評価を通じて、我々の新しい手法が既存のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2024-06-13T09:49:31Z) - Occupancy Planes for Single-view RGB-D Human Reconstruction [120.5818162569105]
暗黙的な機能を持つシングルビューRGB-Dヒト再構成は、しばしばポイント単位の分類として定式化される。
本稿では,カメラの視野フラストラムをスライスする平面上での占有率予測として,一視点のRGB-D人間の再構成を定式化できる占有面(OPlanes)表現を提案する。
論文 参考訳(メタデータ) (2022-08-04T17:59:56Z) - PlanarRecon: Real-time 3D Plane Detection and Reconstruction from Posed
Monocular Videos [32.286637700503995]
PlanarReconは、提示されたモノクロビデオから3次元平面のグローバルなコヒーレントな検出と再構築のためのフレームワークである。
学習ベースのトラッキングと融合モジュールは、以前のフラグメントから平面をマージして、コヒーレントなグローバルな平面再構成を形成するように設計されている。
実験の結果,提案手法はリアルタイムでありながら,ScanNetデータセット上での最先端のパフォーマンスを実現することがわかった。
論文 参考訳(メタデータ) (2022-06-15T17:59:16Z) - PlaneMVS: 3D Plane Reconstruction from Multi-View Stereo [32.81496429134453]
カメラのポーズによる複数入力ビューからの3次元平面再構成のための新しいフレームワークPlainMVSを提案する。
対照的に、マルチビュー幾何学を利用するマルチビューステレオ(MVS)パイプラインで3次元平面を再構成する。
本手法は,学習面の先行性により,SOTA学習に基づくMVS手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-22T22:35:46Z) - Monocular Road Planar Parallax Estimation [25.36368935789501]
乾燥可能な表面および周囲環境の3次元構造を推定することは、補助的かつ自律的な運転にとって重要な課題である。
単眼画像からの3Dセンシングのための新しいディープニューラルネットワークであるRoad Planar Parallax Attention Network (RPANet)を提案する。
RPANetは、路面のホモグラフィに整列した一対の画像を入力として取り、3D再構成のための$gamma$mapを出力する。
論文 参考訳(メタデータ) (2021-11-22T10:03:41Z) - PlaneTR: Structure-Guided Transformers for 3D Plane Recovery [56.23402171871664]
平面TRは1つの画像から同時に平面を検出し、再構成する。
PlaneTRはScanNetとNYUv2データセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-07-27T23:55:40Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - KAPLAN: A 3D Point Descriptor for Shape Completion [80.15764700137383]
KAPLANは、一連の2D畳み込みを通じて局所的な形状情報を集約する3Dポイント記述子である。
各平面において、正規点や平面間距離のような点特性は2次元グリッドに集約され、効率的な2次元畳み込みエンコーダを持つ特徴表現に抽象化される。
公開データセットの実験では、KAPLANが3D形状の完成のために最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2020-07-31T21:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。