論文の概要: Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model
- arxiv url: http://arxiv.org/abs/2502.16779v3
- Date: Tue, 04 Mar 2025 09:24:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 13:46:35.423917
- Title: Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model
- Title(参考訳): プレトレインモデルによる部屋レイアウト復元の未検討
- Authors: Yaxuan Huang, Xili Dai, Jianan Wang, Xianbiao Qi, Yixing Yuan, Xiangyu Yue,
- Abstract要約: マルチビュールームレイアウト推定のための新しい手法であるPlain-DUSt3Rを提案する。
Plane-DUSt3RはDUSt3Rフレームワークを室内レイアウトデータセット(Structure3D)に組み込んで構造平面を推定する。
均一かつ同相な結果を生成することにより、Plane-DUSt3Rは、単一の後処理ステップと2D検出結果のみを用いて、部屋レイアウトの推定を可能にする。
- 参考スコア(独自算出の注目度): 15.892685514932323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Room layout estimation from multiple-perspective images is poorly investigated due to the complexities that emerge from multi-view geometry, which requires muti-step solutions such as camera intrinsic and extrinsic estimation, image matching, and triangulation. However, in 3D reconstruction, the advancement of recent 3D foundation models such as DUSt3R has shifted the paradigm from the traditional multi-step structure-from-motion process to an end-to-end single-step approach. To this end, we introduce Plane-DUSt3R, a novel method for multi-view room layout estimation leveraging the 3D foundation model DUSt3R. Plane-DUSt3R incorporates the DUSt3R framework and fine-tunes on a room layout dataset (Structure3D) with a modified objective to estimate structural planes. By generating uniform and parsimonious results, Plane-DUSt3R enables room layout estimation with only a single post-processing step and 2D detection results. Unlike previous methods that rely on single-perspective or panorama image, Plane-DUSt3R extends the setting to handle multiple-perspective images. Moreover, it offers a streamlined, end-to-end solution that simplifies the process and reduces error accumulation. Experimental results demonstrate that Plane-DUSt3R not only outperforms state-of-the-art methods on the synthetic dataset but also proves robust and effective on in the wild data with different image styles such as cartoon. Our code is available at: https://github.com/justacar/Plane-DUSt3R
- Abstract(参考訳): マルチパースペクティブ画像からのルームレイアウト推定は、カメラ内在的・外在的推定、画像マッチング、三角法といったミューティステップの解を必要とするマルチビュー幾何学から生じる複雑さのために、不十分な研究がなされている。
しかし、3D再構成では、DUSt3Rのような最近の3D基礎モデルの進歩により、従来の多段階構造からエンドツーエンドの単一段階のアプローチへとパラダイムがシフトしている。
そこで本研究では,3次元基礎モデルDUSt3Rを利用したマルチビュールームレイアウト推定手法であるPlain-DUSt3Rを提案する。
Plane-DUSt3RはDUSt3Rフレームワークを室内レイアウトデータセット(Structure3D)に組み込んで構造平面を推定する。
均一かつ同相な結果を生成することにより、Plane-DUSt3Rは、単一の後処理ステップと2D検出結果のみを用いて、部屋レイアウトの推定を可能にする。
単一のパースペクティブイメージやパノラマイメージに依存する従来の方法とは異なり、Plain-DUSt3Rは複数のパースペクティブイメージを扱うように設定を拡張している。
さらに、プロセスをシンプルにし、エラーの蓄積を減らす、合理化されたエンドツーエンドのソリューションを提供する。
実験結果から,Plane-DUSt3Rは合成データセット上での最先端の手法よりも優れるだけでなく,漫画のような異なるイメージスタイルのワイルドデータにおいて,堅牢かつ効果的であることが証明された。
私たちのコードは、https://github.com/justacar/Plane-DUSt3Rで利用可能です。
関連論文リスト
- MonoPlane: Exploiting Monocular Geometric Cues for Generalizable 3D Plane Reconstruction [37.481945507799594]
本稿では,MonoPlaneという汎用的な3次元平面検出・再構成フレームワークを提案する。
まず、大規模な事前学習ニューラルネットワークを用いて、1つの画像から深度と表面の正常値を得る。
これらの特異な幾何学的手がかりを近接誘導RANSACフレームワークに組み込んで各平面インスタンスに順次適合させる。
論文 参考訳(メタデータ) (2024-11-02T12:15:29Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - PlaneRecTR++: Unified Query Learning for Joint 3D Planar Reconstruction and Pose Estimation [10.982464344805194]
PlaneRecTR++はTransformerベースのアーキテクチャで、マルチビューの再構築とポーズ推定に関連するすべてのサブタスクを統合する。
提案した統合学習は,ScanNetv1,ScanNetv2,NYUv2-Plane,MatterPort3Dデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-25T18:28:19Z) - Learning to Generate 3D Representations of Building Roofs Using
Single-View Aerial Imagery [68.3565370706598]
本研究では,空撮画像から建物屋根メッシュの条件分布を学習するための新しいパイプラインを提案する。
同一物体の複数の画像を必要とする代替手法とは違って,本手法では,一つの画像のみを用いて予測を行う3次元屋根メッシュを推定できる。
論文 参考訳(メタデータ) (2023-03-20T15:47:05Z) - PlaneFormers: From Sparse View Planes to 3D Reconstruction [14.45228936875838]
本稿では,画像の重なりが限定された平面面再構成手法を提案する。
より単純なアプローチであるPlaneFormerを導入し、3次元推論を行うために3D対応平面トークンに変換器を適用する。
論文 参考訳(メタデータ) (2022-08-08T17:58:13Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - MCTS with Refinement for Proposals Selection Games in Scene
Understanding [32.92475660892122]
本稿では,モンテカルロ木探索(MCTS)アルゴリズムを適用したシーン理解問題に適用可能な新しい手法を提案する。
提案手法は,提案された提案のプールから,目的語を最大化する提案を共同で選択し,最適化する。
本手法は,部屋配置に厳しい制約を加えることなく,Matterport3Dデータセット上で高い性能を示す。
論文 参考訳(メタデータ) (2022-07-07T10:15:54Z) - Leveraging Monocular Disparity Estimation for Single-View Reconstruction [8.583436410810203]
単分子深度推定の進歩を利用して不均一マップを得る。
我々は,2次元の正規化不均質マップを,関連するカメラパラメータの最適化によって3次元の点群に変換する。
論文 参考訳(メタデータ) (2022-07-01T03:05:40Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - Automated LoD-2 Model Reconstruction from Very-HighResolution
Satellite-derived Digital Surface Model and Orthophoto [1.2691047660244335]
本稿では,LoD-2ビルディングモデルを「分解最適化最適化」パラダイムに従って再構成するモデル駆動手法を提案する。
提案手法は,既存の手法に対するいくつかの技術的問題点に対処し,その有効性を実証した。
論文 参考訳(メタデータ) (2021-09-08T19:03:09Z) - Learning to Reconstruct 3D Non-Cuboid Room Layout from a Single RGB
Image [32.5277483805739]
単一画像から部屋の囲い3次元構造を再構築することを目的としている。
本稿では,室内のより一般的な仮定,すなわち1つの天井,1つの床,2つの垂直壁からなる部屋配置について考察する。
論文 参考訳(メタデータ) (2021-04-16T09:24:08Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - General 3D Room Layout from a Single View by Render-and-Compare [36.94817376590415]
一つの視点から部屋の3次元レイアウトを再構築する新しい手法を提案する。
データセットはScanNetの293の画像で構成されており、正確な3Dレイアウトで注釈を付けました。
論文 参考訳(メタデータ) (2020-01-07T16:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。