論文の概要: Towards In-the-wild 3D Plane Reconstruction from a Single Image
- arxiv url: http://arxiv.org/abs/2506.02493v1
- Date: Tue, 03 Jun 2025 06:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.314468
- Title: Towards In-the-wild 3D Plane Reconstruction from a Single Image
- Title(参考訳): 単一画像からの3次元平面再構成の実現に向けて
- Authors: Jiachen Liu, Rui Yu, Sili Chen, Sharon X. Huang, Hengkai Guo,
- Abstract要約: 単一の画像から3D平面を再構築することは、3Dコンピュータビジョンにおいて重要な課題である。
これまでの最先端の手法は、屋内または屋外のドメインから1つのデータセットでシステムのトレーニングに重点を置いてきた。
ゼロショット3次元平面の検出と再構成を目的としたトランスフォーマーベースモデルであるZeroPlaneを紹介した。
- 参考スコア(独自算出の注目度): 16.857296782216206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D plane reconstruction from a single image is a crucial yet challenging topic in 3D computer vision. Previous state-of-the-art (SOTA) methods have focused on training their system on a single dataset from either indoor or outdoor domain, limiting their generalizability across diverse testing data. In this work, we introduce a novel framework dubbed ZeroPlane, a Transformer-based model targeting zero-shot 3D plane detection and reconstruction from a single image, over diverse domains and environments. To enable data-driven models across multiple domains, we have curated a large-scale planar benchmark, comprising over 14 datasets and 560,000 high-resolution, dense planar annotations for diverse indoor and outdoor scenes. To address the challenge of achieving desirable planar geometry on multi-dataset training, we propose to disentangle the representation of plane normal and offset, and employ an exemplar-guided, classification-then-regression paradigm to learn plane and offset respectively. Additionally, we employ advanced backbones as image encoder, and present an effective pixel-geometry-enhanced plane embedding module to further facilitate planar reconstruction. Extensive experiments across multiple zero-shot evaluation datasets have demonstrated that our approach significantly outperforms previous methods on both reconstruction accuracy and generalizability, especially over in-the-wild data. Our code and data are available at: https://github.com/jcliu0428/ZeroPlane.
- Abstract(参考訳): 単一の画像から3D平面を再構築することは、3Dコンピュータビジョンにおいて重要な課題である。
これまでのSOTA(State-of-the-art)メソッドは、屋内または屋外のドメインから1つのデータセットでシステムのトレーニングに重点を置いており、さまざまなテストデータにまたがる一般化性を制限している。
本研究では,ゼロショット3次元平面の検出と再構成を目的としたトランスフォーマーベースモデルであるZeroPlaneを,多様な領域や環境に対して導入する。
複数のドメインにまたがるデータ駆動モデルを実現するために、14以上のデータセットと56万以上の高解像度で高密度な平面アノテーションからなる大規模なプラナーベンチマークを、屋内および屋外のさまざまなシーンで実施しました。
本研究では,平面正規表現とオフセット表現の両立を図り,平面とオフセットをそれぞれ学習するために,模範的,分類的,分類的,回帰的パラダイムを採用することを提案する。
さらに,画像エンコーダとして高度なバックボーンを採用し,平面再構成を容易にするために,有効画素幾何強調平面埋め込みモジュールを提案する。
複数のゼロショット評価データセットにまたがる広範囲な実験により,提案手法は,再構成精度と一般化性の両方において,特に組込みデータよりもはるかに優れていたことが実証された。
私たちのコードとデータは、https://github.com/jcliu0428/ZeroPlane.comで利用可能です。
関連論文リスト
- Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model [15.892685514932323]
マルチビュールームレイアウト推定のための新しい手法であるPlain-DUSt3Rを提案する。
Plane-DUSt3RはDUSt3Rフレームワークを室内レイアウトデータセット(Structure3D)に組み込んで構造平面を推定する。
均一かつ同相な結果を生成することにより、Plane-DUSt3Rは、単一の後処理ステップと2D検出結果のみを用いて、部屋レイアウトの推定を可能にする。
論文 参考訳(メタデータ) (2025-02-24T02:14:19Z) - MonoPlane: Exploiting Monocular Geometric Cues for Generalizable 3D Plane Reconstruction [37.481945507799594]
本稿では,MonoPlaneという汎用的な3次元平面検出・再構成フレームワークを提案する。
まず、大規模な事前学習ニューラルネットワークを用いて、1つの画像から深度と表面の正常値を得る。
これらの特異な幾何学的手がかりを近接誘導RANSACフレームワークに組み込んで各平面インスタンスに順次適合させる。
論文 参考訳(メタデータ) (2024-11-02T12:15:29Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - UniPlane: Unified Plane Detection and Reconstruction from Posed Monocular Videos [12.328095228008893]
単眼ビデオから平面検出と再構成を統一する新しい手法であるUniPlaneを提案する。
我々はトランスフォーマーベースのディープニューラルネットワークを構築し、環境のための3D機能ボリュームを共同で構築する。
実世界のデータセットの実験では、UniPlaneは平面検出と再構成の両方において最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2024-07-04T03:02:27Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。