論文の概要: PLANA3R: Zero-shot Metric Planar 3D Reconstruction via Feed-Forward Planar Splatting
- arxiv url: http://arxiv.org/abs/2510.18714v1
- Date: Tue, 21 Oct 2025 15:15:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.816909
- Title: PLANA3R: Zero-shot Metric Planar 3D Reconstruction via Feed-Forward Planar Splatting
- Title(参考訳): PLANA3R:フィードフォワード平面スプレイティングによるゼロショットメトリプラナー3次元再構成
- Authors: Changkun Liu, Bin Tan, Zeran Ke, Shangzhan Zhang, Jiachen Liu, Ming Qian, Nan Xue, Yujun Shen, Tristan Braud,
- Abstract要約: 提案するPLANA3Rは,提案しない2次元画像から平面3次元再構成を計測するためのポーズレスフレームワークである。
トレーニング中に3次元平面アノテーションを必要とする以前のフィードフォワード法とは異なり、PLANA3Rは明確な平面監督なしで平面3次元構造を学習する。
本研究は,複数の室内環境データセットに対するPLANA3Rの有効性を検証するとともに,領域外屋内環境への強力な一般化を実証する。
- 参考スコア(独自算出の注目度): 56.188624157291024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses metric 3D reconstruction of indoor scenes by exploiting their inherent geometric regularities with compact representations. Using planar 3D primitives - a well-suited representation for man-made environments - we introduce PLANA3R, a pose-free framework for metric Planar 3D Reconstruction from unposed two-view images. Our approach employs Vision Transformers to extract a set of sparse planar primitives, estimate relative camera poses, and supervise geometry learning via planar splatting, where gradients are propagated through high-resolution rendered depth and normal maps of primitives. Unlike prior feedforward methods that require 3D plane annotations during training, PLANA3R learns planar 3D structures without explicit plane supervision, enabling scalable training on large-scale stereo datasets using only depth and normal annotations. We validate PLANA3R on multiple indoor-scene datasets with metric supervision and demonstrate strong generalization to out-of-domain indoor environments across diverse tasks under metric evaluation protocols, including 3D surface reconstruction, depth estimation, and relative pose estimation. Furthermore, by formulating with planar 3D representation, our method emerges with the ability for accurate plane segmentation. The project page is available at https://lck666666.github.io/plana3r
- Abstract(参考訳): 本稿では,コンパクトな表現で固有の幾何学的規則性を活用することで室内シーンを3次元的に再現する手法を提案する。
平面3Dプリミティブ(人為的環境に適した表現)を用いることで、未提示の2次元画像からの平面3D再構成のためのポーズレスフレームワークPLANA3Rを導入する。
提案手法では,高分解能の深度とプリミティブの正規マップによって勾配が伝播する平面スプレイティングにより,粗い平面プリミティブの集合を抽出し,相対的なカメラポーズを推定し,幾何学習を監督する。
トレーニング中に3Dプレーンアノテーションを必要とする以前のフィードフォワードメソッドとは異なり、PLANA3Rは明確なプレーンインスペクションなしで平面3D構造を学習し、深さと通常のアノテーションのみを使用して大規模なステレオデータセット上でスケーラブルなトレーニングを可能にする。
我々は,3次元表面再構成,深度推定,相対ポーズ推定など,各種タスクの領域外屋内環境への強力な一般化を実証し,複数の室内環境データセット上でPLANA3Rを検証した。
さらに,平面3次元表現を用いて定式化することにより,正確な平面分割が可能となる。
プロジェクトページはhttps://lck6666.github.io/plana3rで公開されている。
関連論文リスト
- Towards In-the-wild 3D Plane Reconstruction from a Single Image [16.857296782216206]
単一の画像から3D平面を再構築することは、3Dコンピュータビジョンにおいて重要な課題である。
これまでの最先端の手法は、屋内または屋外のドメインから1つのデータセットでシステムのトレーニングに重点を置いてきた。
ゼロショット3次元平面の検出と再構成を目的としたトランスフォーマーベースモデルであるZeroPlaneを紹介した。
論文 参考訳(メタデータ) (2025-06-03T06:14:05Z) - PlanarSplatting: Accurate Planar Surface Reconstruction in 3 Minutes [32.00236197233923]
PlanarSplattingはマルチビュー屋内画像のための超高速かつ高精度な表面再構成手法である。
PlanarSplattingは3分で室内のシーンを再構築し、幾何学的精度は大幅に向上した。
論文 参考訳(メタデータ) (2024-12-04T16:38:07Z) - MonoPlane: Exploiting Monocular Geometric Cues for Generalizable 3D Plane Reconstruction [37.481945507799594]
本稿では,MonoPlaneという汎用的な3次元平面検出・再構成フレームワークを提案する。
まず、大規模な事前学習ニューラルネットワークを用いて、1つの画像から深度と表面の正常値を得る。
これらの特異な幾何学的手がかりを近接誘導RANSACフレームワークに組み込んで各平面インスタンスに順次適合させる。
論文 参考訳(メタデータ) (2024-11-02T12:15:29Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - Monocular Road Planar Parallax Estimation [25.36368935789501]
乾燥可能な表面および周囲環境の3次元構造を推定することは、補助的かつ自律的な運転にとって重要な課題である。
単眼画像からの3Dセンシングのための新しいディープニューラルネットワークであるRoad Planar Parallax Attention Network (RPANet)を提案する。
RPANetは、路面のホモグラフィに整列した一対の画像を入力として取り、3D再構成のための$gamma$mapを出力する。
論文 参考訳(メタデータ) (2021-11-22T10:03:41Z) - KAPLAN: A 3D Point Descriptor for Shape Completion [80.15764700137383]
KAPLANは、一連の2D畳み込みを通じて局所的な形状情報を集約する3Dポイント記述子である。
各平面において、正規点や平面間距離のような点特性は2次元グリッドに集約され、効率的な2次元畳み込みエンコーダを持つ特徴表現に抽象化される。
公開データセットの実験では、KAPLANが3D形状の完成のために最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2020-07-31T21:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。