論文の概要: PlaneRecTR++: Unified Query Learning for Joint 3D Planar Reconstruction and Pose Estimation
- arxiv url: http://arxiv.org/abs/2307.13756v3
- Date: Mon, 9 Sep 2024 08:43:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 04:13:49.978852
- Title: PlaneRecTR++: Unified Query Learning for Joint 3D Planar Reconstruction and Pose Estimation
- Title(参考訳): PlaneRecTR++: 共同3次元平面再構成のための統一クエリ学習とポース推定
- Authors: Jingjia Shi, Shuaifeng Zhi, Kai Xu,
- Abstract要約: PlaneRecTR++はTransformerベースのアーキテクチャで、マルチビューの再構築とポーズ推定に関連するすべてのサブタスクを統合する。
提案した統合学習は,ScanNetv1,ScanNetv2,NYUv2-Plane,MatterPort3Dデータセット上での最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 10.982464344805194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D plane reconstruction from images can usually be divided into several sub-tasks of plane detection, segmentation, parameters regression and possibly depth prediction for per-frame, along with plane correspondence and relative camera pose estimation between frames. Previous works tend to divide and conquer these sub-tasks with distinct network modules, overall formulated by a two-stage paradigm. With an initial camera pose and per-frame plane predictions provided from the first stage, exclusively designed modules, potentially relying on extra plane correspondence labelling, are applied to merge multi-view plane entities and produce 6DoF camera pose. As none of existing works manage to integrate above closely related sub-tasks into a unified framework but treat them separately and sequentially, we suspect it potentially as a main source of performance limitation for existing approaches. Motivated by this finding and the success of query-based learning in enriching reasoning among semantic entities, in this paper, we propose PlaneRecTR++, a Transformer-based architecture, which for the first time unifies all sub-tasks related to multi-view reconstruction and pose estimation with a compact single-stage model, refraining from initial pose estimation and plane correspondence supervision. Extensive quantitative and qualitative experiments demonstrate that our proposed unified learning achieves mutual benefits across sub-tasks, obtaining a new state-of-the-art performance on public ScanNetv1, ScanNetv2, NYUv2-Plane, and MatterPort3D datasets.
- Abstract(参考訳): 画像からの3次元平面再構成は通常、平面検出、セグメンテーション、パラメータ回帰、おそらくフレームごとの深さ予測のいくつかのサブタスクと、フレーム間の平面対応と相対的なカメラポーズ推定に分割することができる。
以前の作業では、これらのサブタスクを異なるネットワークモジュールで分割し、征服する傾向があり、全体としては2段階のパラダイムで定式化されている。
初期カメラのポーズと第1段から提供されるフレームごとの平面予測により、追加の平面対応ラベリングに依存する可能性のある設計モジュールが、マルチビュー平面のエンティティをマージして6DoFカメラのポーズを生成する。
既存のどの作業も、密接な関係のあるサブタスクを統一されたフレームワークに統合することはできませんが、それらを個別に、そして逐次的に扱います。
この発見とセマンティックエンティティ間の推論を充実させるためのクエリベースの学習の成功により、我々はPlaneRecTR++を提案する。このPlaneRecTR++は、トランスフォーマーベースのアーキテクチャで、マルチビュー再構成に関連するすべてのサブタスクを初めて統合し、コンパクトな単一ステージモデルでポーズ推定を行い、初期ポーズ推定や平面対応の監督を控える。
ScanNetv1、ScanNetv2、NYUv2-Plane、MatterPort3Dデータセット上で、我々の提案した統一学習は、サブタスク間で相互に利益を得ることを示す。
関連論文リスト
- UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
粗大なパラダイムに基づいて、UNOPoseはSE(3)不変の参照フレームを構築し、オブジェクト表現を標準化する。
重なり合う領域内に存在すると予測される確率に基づいて、各対応の重みを補正する。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - MonoPlane: Exploiting Monocular Geometric Cues for Generalizable 3D Plane Reconstruction [37.481945507799594]
本稿では,MonoPlaneという汎用的な3次元平面検出・再構成フレームワークを提案する。
まず、大規模な事前学習ニューラルネットワークを用いて、1つの画像から深度と表面の正常値を得る。
これらの特異な幾何学的手がかりを近接誘導RANSACフレームワークに組み込んで各平面インスタンスに順次適合させる。
論文 参考訳(メタデータ) (2024-11-02T12:15:29Z) - UniPlane: Unified Plane Detection and Reconstruction from Posed Monocular Videos [12.328095228008893]
単眼ビデオから平面検出と再構成を統一する新しい手法であるUniPlaneを提案する。
我々はトランスフォーマーベースのディープニューラルネットワークを構築し、環境のための3D機能ボリュームを共同で構築する。
実世界のデータセットの実験では、UniPlaneは平面検出と再構成の両方において最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2024-07-04T03:02:27Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z) - Multi-task Planar Reconstruction with Feature Warping Guidance [3.95944314850151]
ピースワイドな平面3D再構成は、同時に平面インスタンスを分割し、画像からそれらの平面パラメータを復元する。
本稿では,修正インスタンスセグメンテーションアーキテクチャに基づくリアルタイム平面再構成モデルであるSOLOPlanesを紹介する。
本モデルでは,43FPSでリアルタイムな予測を行いながら,単一画像の推測時にセマンティクスを同時に予測する。
論文 参考訳(メタデータ) (2023-11-25T09:53:42Z) - RelPose++: Recovering 6D Poses from Sparse-view Observations [66.6922660401558]
スパースビュー画像集合(2-8画像)から6次元カメラポーズを推定する作業に対処する。
我々は,画像対上の相対回転よりも分布を推定するネットワークを学習するRelPoseフレームワークを構築した。
最終システムは,先行技術よりも6次元ポーズ予測を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-08T17:59:58Z) - NOPE-SAC: Neural One-Plane RANSAC for Sparse-View Planar 3D
Reconstruction [41.00845324937751]
本稿では,厳密なスパースビュー構成による2次元3次元再構成の課題について検討する。
本稿では,ワンプレーンのポーズ仮説を学習する優れた能力を発揮する新しいニューラルワンプレーンRANSACフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T07:33:14Z) - Occupancy Planes for Single-view RGB-D Human Reconstruction [120.5818162569105]
暗黙的な機能を持つシングルビューRGB-Dヒト再構成は、しばしばポイント単位の分類として定式化される。
本稿では,カメラの視野フラストラムをスライスする平面上での占有率予測として,一視点のRGB-D人間の再構成を定式化できる占有面(OPlanes)表現を提案する。
論文 参考訳(メタデータ) (2022-08-04T17:59:56Z) - PlaneRecNet: Multi-Task Learning with Cross-Task Consistency for
Piece-Wise Plane Detection and Reconstruction from a Single RGB Image [11.215334675788952]
ピアースワイドな3次元平面再構成は、特に屋内シナリオにおいて、人為的な環境の全体像の理解を提供する。
最新のアプローチは、高度なネットワークアーキテクチャを導入し、セグメンテーションと再構築結果の改善に重点を置いている。
マルチタスク畳み込みニューラルネットワークであるPlaneRecNetのクロスタスク一貫性の強化から始まります。
平面分割と深さ推定の精度を両立させる新しい損失関数(幾何学的制約)を導入する。
論文 参考訳(メタデータ) (2021-10-21T15:54:03Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。