論文の概要: PlaneRecTR++: Unified Query Learning for Joint 3D Planar Reconstruction and Pose Estimation
- arxiv url: http://arxiv.org/abs/2307.13756v4
- Date: Wed, 17 Sep 2025 03:36:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.477295
- Title: PlaneRecTR++: Unified Query Learning for Joint 3D Planar Reconstruction and Pose Estimation
- Title(参考訳): PlaneRecTR++: 共同3次元平面再構成のための統一クエリ学習とポース推定
- Authors: Jingjia Shi, Shuaifeng Zhi, Kai Xu,
- Abstract要約: PlaneRecTR++は、多視点平面再構成とポーズ推定のすべてのタスクを統合するトランスフォーマーベースのアーキテクチャである。
提案した統合学習は,ScanNetv1, ScanNetv2, NYUv2-Plane, MatterPort3Dデータセット上での最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 12.200722074138298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The challenging task of 3D planar reconstruction from images involves several sub-tasks including frame-wise plane detection, segmentation, parameter regression and possibly depth prediction, along with cross-frame plane correspondence and relative camera pose estimation. Previous works adopt a divide and conquer strategy, addressing above sub-tasks with distinct network modules in a two-stage paradigm. Specifically, given an initial camera pose and per-frame plane predictions from the first stage, further exclusively designed modules relying on external plane correspondence labeling are applied to merge multi-view plane entities and produce refined camera pose. Notably, existing work fails to integrate these closely related sub-tasks into a unified framework, and instead addresses them separately and sequentially, which we identify as a primary source of performance limitations. Motivated by this finding and the success of query-based learning in enriching reasoning among semantic entities, in this paper, we propose PlaneRecTR++, a Transformer-based architecture, which for the first time unifies all tasks of multi-view planar reconstruction and pose estimation within a compact single-stage framework, eliminating the need for the initial pose estimation and supervision of plane correspondence. Extensive quantitative and qualitative experiments demonstrate that our proposed unified learning achieves mutual benefits across sub-tasks, achieving a new state-of-the-art performance on the public ScanNetv1, ScanNetv2, NYUv2-Plane, and MatterPort3D datasets. Codes are available at https://github.com/SJingjia/PlaneRecTR-PP.
- Abstract(参考訳): 画像からの3次元平面再構成の課題は、フレームワイド平面検出、セグメンテーション、パラメータ回帰、おそらく深度予測を含むいくつかのサブタスクと、クロスフレーム平面対応と相対カメラポーズ推定を含む。
以前の作業では分割と征服の戦略を採用しており、2段階のパラダイムで異なるネットワークモジュールで上記のサブタスクに対処している。
具体的には、初期カメラのポーズと第1段のフレームごとの平面予測が与えられた場合、外部平面対応ラベリングに依存したモジュールを多視点平面要素のマージに適用し、精細化されたカメラのポーズを生成する。
特に、既存の作業では、これらの密接に関連するサブタスクを統一されたフレームワークに統合できず、代わりに個別に、そして逐次的に対処します。
この発見とセマンティックエンティティ間の推論を充実させるためのクエリベースの学習の成功により、我々はPlaneRecTR++を提案する。PlaneRecTR++は、トランスフォーマーベースのアーキテクチャで、マルチビュー平面再構成のタスクを初めて統一し、コンパクトな単一ステージフレームワーク内でのポーズ推定を行い、初期ポーズ推定と平面対応の監督を不要にする。
ScanNetv1、ScanNetv2、NYUv2-Plane、MatterPort3Dデータセット上で、我々の提案した統一学習は、サブタスク間での相互利益を達成することを示す。
コードはhttps://github.com/SJingjia/PlaneRecTR-PPで公開されている。
関連論文リスト
- Towards In-the-wild 3D Plane Reconstruction from a Single Image [16.857296782216206]
単一の画像から3D平面を再構築することは、3Dコンピュータビジョンにおいて重要な課題である。
これまでの最先端の手法は、屋内または屋外のドメインから1つのデータセットでシステムのトレーニングに重点を置いてきた。
ゼロショット3次元平面の検出と再構成を目的としたトランスフォーマーベースモデルであるZeroPlaneを紹介した。
論文 参考訳(メタデータ) (2025-06-03T06:14:05Z) - Structure-Aware Correspondence Learning for Relative Pose Estimation [65.44234975976451]
相対的なポーズ推定は、オブジェクトに依存しないポーズ推定を達成するための有望な方法を提供する。
既存の3D対応方式は、可視領域における小さな重複と、可視領域に対する信頼できない特徴推定に悩まされている。
本稿では,2つの鍵モジュールからなる相対詩推定のための構造認識対応学習手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T13:43:44Z) - Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model [15.892685514932323]
マルチビュールームレイアウト推定のための新しい手法であるPlain-DUSt3Rを提案する。
Plane-DUSt3RはDUSt3Rフレームワークを室内レイアウトデータセット(Structure3D)に組み込んで構造平面を推定する。
均一かつ同相な結果を生成することにより、Plane-DUSt3Rは、単一の後処理ステップと2D検出結果のみを用いて、部屋レイアウトの推定を可能にする。
論文 参考訳(メタデータ) (2025-02-24T02:14:19Z) - FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [93.6881532277553]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。
本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文 参考訳(メタデータ) (2025-02-17T18:54:05Z) - UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
粗大なパラダイムに基づいて、UNOPoseはSE(3)不変の参照フレームを構築し、オブジェクト表現を標準化する。
重なり合う領域内に存在すると予測される確率に基づいて、各対応の重みを補正する。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - MonoPlane: Exploiting Monocular Geometric Cues for Generalizable 3D Plane Reconstruction [37.481945507799594]
本稿では,MonoPlaneという汎用的な3次元平面検出・再構成フレームワークを提案する。
まず、大規模な事前学習ニューラルネットワークを用いて、1つの画像から深度と表面の正常値を得る。
これらの特異な幾何学的手がかりを近接誘導RANSACフレームワークに組み込んで各平面インスタンスに順次適合させる。
論文 参考訳(メタデータ) (2024-11-02T12:15:29Z) - UniPlane: Unified Plane Detection and Reconstruction from Posed Monocular Videos [12.328095228008893]
単眼ビデオから平面検出と再構成を統一する新しい手法であるUniPlaneを提案する。
我々はトランスフォーマーベースのディープニューラルネットワークを構築し、環境のための3D機能ボリュームを共同で構築する。
実世界のデータセットの実験では、UniPlaneは平面検出と再構成の両方において最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2024-07-04T03:02:27Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z) - Multi-task Planar Reconstruction with Feature Warping Guidance [3.95944314850151]
ピースワイドな平面3D再構成は、同時に平面インスタンスを分割し、画像からそれらの平面パラメータを復元する。
本稿では,修正インスタンスセグメンテーションアーキテクチャに基づくリアルタイム平面再構成モデルであるSOLOPlanesを紹介する。
本モデルでは,43FPSでリアルタイムな予測を行いながら,単一画像の推測時にセマンティクスを同時に予測する。
論文 参考訳(メタデータ) (2023-11-25T09:53:42Z) - RelPose++: Recovering 6D Poses from Sparse-view Observations [66.6922660401558]
スパースビュー画像集合(2-8画像)から6次元カメラポーズを推定する作業に対処する。
我々は,画像対上の相対回転よりも分布を推定するネットワークを学習するRelPoseフレームワークを構築した。
最終システムは,先行技術よりも6次元ポーズ予測を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-08T17:59:58Z) - NOPE-SAC: Neural One-Plane RANSAC for Sparse-View Planar 3D
Reconstruction [41.00845324937751]
本稿では,厳密なスパースビュー構成による2次元3次元再構成の課題について検討する。
本稿では,ワンプレーンのポーズ仮説を学習する優れた能力を発揮する新しいニューラルワンプレーンRANSACフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T07:33:14Z) - Occupancy Planes for Single-view RGB-D Human Reconstruction [120.5818162569105]
暗黙的な機能を持つシングルビューRGB-Dヒト再構成は、しばしばポイント単位の分類として定式化される。
本稿では,カメラの視野フラストラムをスライスする平面上での占有率予測として,一視点のRGB-D人間の再構成を定式化できる占有面(OPlanes)表現を提案する。
論文 参考訳(メタデータ) (2022-08-04T17:59:56Z) - PlaneRecNet: Multi-Task Learning with Cross-Task Consistency for
Piece-Wise Plane Detection and Reconstruction from a Single RGB Image [11.215334675788952]
ピアースワイドな3次元平面再構成は、特に屋内シナリオにおいて、人為的な環境の全体像の理解を提供する。
最新のアプローチは、高度なネットワークアーキテクチャを導入し、セグメンテーションと再構築結果の改善に重点を置いている。
マルチタスク畳み込みニューラルネットワークであるPlaneRecNetのクロスタスク一貫性の強化から始まります。
平面分割と深さ推定の精度を両立させる新しい損失関数(幾何学的制約)を導入する。
論文 参考訳(メタデータ) (2021-10-21T15:54:03Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。