論文の概要: Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model
- arxiv url: http://arxiv.org/abs/2502.16779v1
- Date: Mon, 24 Feb 2025 02:14:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:40.019820
- Title: Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model
- Title(参考訳): プレトレインモデルによる部屋レイアウト復元の未検討
- Authors: Yaxuan Huang, Xili Dai, Jianan Wang, Xianbiao Qi, Yixing Yuan, Xiangyu Yue,
- Abstract要約: Plane-DUSt3R は3次元基礎モデル DUSt3R を利用したマルチビュールームレイアウト推定手法である。
均一かつ同相な結果を生成することにより、Plane-DUSt3Rは、単一の後処理ステップと2D検出結果のみを用いて、部屋レイアウトの推定を可能にする。
- 参考スコア(独自算出の注目度): 15.892685514932323
- License:
- Abstract: Room layout estimation from multiple-perspective images is poorly investigated due to the complexities that emerge from multi-view geometry, which requires muti-step solutions such as camera intrinsic and extrinsic estimation, image matching, and triangulation. However, in 3D reconstruction, the advancement of recent 3D foundation models such as DUSt3R has shifted the paradigm from the traditional multi-step structure-from-motion process to an end-to-end single-step approach. To this end, we introduce Plane-DUSt3R}, a novel method for multi-view room layout estimation leveraging the 3D foundation model DUSt3R. Plane-DUSt3R incorporates the DUSt3R framework and fine-tunes on a room layout dataset (Structure3D) with a modified objective to estimate structural planes. By generating uniform and parsimonious results, Plane-DUSt3R enables room layout estimation with only a single post-processing step and 2D detection results. Unlike previous methods that rely on single-perspective or panorama image, Plane-DUSt3R extends the setting to handle multiple-perspective images. Moreover, it offers a streamlined, end-to-end solution that simplifies the process and reduces error accumulation. Experimental results demonstrate that Plane-DUSt3R not only outperforms state-of-the-art methods on the synthetic dataset but also proves robust and effective on in the wild data with different image styles such as cartoon.
- Abstract(参考訳): マルチパースペクティブ画像からのルームレイアウト推定は、カメラ内在的・外在的推定、画像マッチング、三角法といったミューティステップの解を必要とするマルチビュー幾何学から生じる複雑さのために、不十分な研究がなされている。
しかし、3D再構成では、DUSt3Rのような最近の3D基礎モデルの進歩により、従来の多段階構造からエンドツーエンドの単一段階のアプローチへとパラダイムがシフトしている。
そこで本研究では,3次元基礎モデルDUSt3Rを利用したマルチビュールームレイアウト推定手法であるPlain-DUSt3Rを紹介した。
Plane-DUSt3RはDUSt3Rフレームワークを室内レイアウトデータセット(Structure3D)に組み込んで構造平面を推定する。
均一かつ同相な結果を生成することにより、Plane-DUSt3Rは、単一の後処理ステップと2D検出結果のみを用いて、部屋レイアウトの推定を可能にする。
単一のパースペクティブイメージやパノラマイメージに依存する従来の方法とは異なり、Plain-DUSt3Rは複数のパースペクティブイメージを扱うように設定を拡張している。
さらに、プロセスをシンプルにし、エラーの蓄積を減らす、合理化されたエンドツーエンドのソリューションを提供する。
実験結果から,Plane-DUSt3Rは合成データセット上での最先端の手法よりも優れるだけでなく,漫画のような異なるイメージスタイルのワイルドデータにおいて,堅牢かつ効果的であることが証明された。
関連論文リスト
- MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - PlaneRecTR++: Unified Query Learning for Joint 3D Planar Reconstruction and Pose Estimation [10.982464344805194]
PlaneRecTR++はTransformerベースのアーキテクチャで、マルチビューの再構築とポーズ推定に関連するすべてのサブタスクを統合する。
提案した統合学習は,ScanNetv1,ScanNetv2,NYUv2-Plane,MatterPort3Dデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-25T18:28:19Z) - Learning to Generate 3D Representations of Building Roofs Using
Single-View Aerial Imagery [68.3565370706598]
本研究では,空撮画像から建物屋根メッシュの条件分布を学習するための新しいパイプラインを提案する。
同一物体の複数の画像を必要とする代替手法とは違って,本手法では,一つの画像のみを用いて予測を行う3次元屋根メッシュを推定できる。
論文 参考訳(メタデータ) (2023-03-20T15:47:05Z) - PlaneFormers: From Sparse View Planes to 3D Reconstruction [14.45228936875838]
本稿では,画像の重なりが限定された平面面再構成手法を提案する。
より単純なアプローチであるPlaneFormerを導入し、3次元推論を行うために3D対応平面トークンに変換器を適用する。
論文 参考訳(メタデータ) (2022-08-08T17:58:13Z) - Leveraging Monocular Disparity Estimation for Single-View Reconstruction [8.583436410810203]
単分子深度推定の進歩を利用して不均一マップを得る。
我々は,2次元の正規化不均質マップを,関連するカメラパラメータの最適化によって3次元の点群に変換する。
論文 参考訳(メタデータ) (2022-07-01T03:05:40Z) - Automated LoD-2 Model Reconstruction from Very-HighResolution
Satellite-derived Digital Surface Model and Orthophoto [1.2691047660244335]
本稿では,LoD-2ビルディングモデルを「分解最適化最適化」パラダイムに従って再構成するモデル駆動手法を提案する。
提案手法は,既存の手法に対するいくつかの技術的問題点に対処し,その有効性を実証した。
論文 参考訳(メタデータ) (2021-09-08T19:03:09Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - General 3D Room Layout from a Single View by Render-and-Compare [36.94817376590415]
一つの視点から部屋の3次元レイアウトを再構築する新しい手法を提案する。
データセットはScanNetの293の画像で構成されており、正確な3Dレイアウトで注釈を付けました。
論文 参考訳(メタデータ) (2020-01-07T16:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。