論文の概要: PlaneRecTR++: Unified Query Learning for Joint 3D Planar Reconstruction and Pose Estimation
- arxiv url: http://arxiv.org/abs/2307.13756v3
- Date: Mon, 9 Sep 2024 08:43:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 04:13:49.978852
- Title: PlaneRecTR++: Unified Query Learning for Joint 3D Planar Reconstruction and Pose Estimation
- Title(参考訳): PlaneRecTR++: 共同3次元平面再構成のための統一クエリ学習とポース推定
- Authors: Jingjia Shi, Shuaifeng Zhi, Kai Xu,
- Abstract要約: PlaneRecTR++はTransformerベースのアーキテクチャで、マルチビューの再構築とポーズ推定に関連するすべてのサブタスクを統合する。
提案した統合学習は,ScanNetv1,ScanNetv2,NYUv2-Plane,MatterPort3Dデータセット上での最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 10.982464344805194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D plane reconstruction from images can usually be divided into several sub-tasks of plane detection, segmentation, parameters regression and possibly depth prediction for per-frame, along with plane correspondence and relative camera pose estimation between frames. Previous works tend to divide and conquer these sub-tasks with distinct network modules, overall formulated by a two-stage paradigm. With an initial camera pose and per-frame plane predictions provided from the first stage, exclusively designed modules, potentially relying on extra plane correspondence labelling, are applied to merge multi-view plane entities and produce 6DoF camera pose. As none of existing works manage to integrate above closely related sub-tasks into a unified framework but treat them separately and sequentially, we suspect it potentially as a main source of performance limitation for existing approaches. Motivated by this finding and the success of query-based learning in enriching reasoning among semantic entities, in this paper, we propose PlaneRecTR++, a Transformer-based architecture, which for the first time unifies all sub-tasks related to multi-view reconstruction and pose estimation with a compact single-stage model, refraining from initial pose estimation and plane correspondence supervision. Extensive quantitative and qualitative experiments demonstrate that our proposed unified learning achieves mutual benefits across sub-tasks, obtaining a new state-of-the-art performance on public ScanNetv1, ScanNetv2, NYUv2-Plane, and MatterPort3D datasets.
- Abstract(参考訳): 画像からの3次元平面再構成は通常、平面検出、セグメンテーション、パラメータ回帰、おそらくフレームごとの深さ予測のいくつかのサブタスクと、フレーム間の平面対応と相対的なカメラポーズ推定に分割することができる。
以前の作業では、これらのサブタスクを異なるネットワークモジュールで分割し、征服する傾向があり、全体としては2段階のパラダイムで定式化されている。
初期カメラのポーズと第1段から提供されるフレームごとの平面予測により、追加の平面対応ラベリングに依存する可能性のある設計モジュールが、マルチビュー平面のエンティティをマージして6DoFカメラのポーズを生成する。
既存のどの作業も、密接な関係のあるサブタスクを統一されたフレームワークに統合することはできませんが、それらを個別に、そして逐次的に扱います。
この発見とセマンティックエンティティ間の推論を充実させるためのクエリベースの学習の成功により、我々はPlaneRecTR++を提案する。このPlaneRecTR++は、トランスフォーマーベースのアーキテクチャで、マルチビュー再構成に関連するすべてのサブタスクを初めて統合し、コンパクトな単一ステージモデルでポーズ推定を行い、初期ポーズ推定や平面対応の監督を控える。
ScanNetv1、ScanNetv2、NYUv2-Plane、MatterPort3Dデータセット上で、我々の提案した統一学習は、サブタスク間で相互に利益を得ることを示す。
関連論文リスト
- RoIPoly: Vectorized Building Outline Extraction Using Vertex and Logit Embeddings [5.093758132026397]
航空画像や衛星画像から建物概要を抽出する新しいクエリベースの手法を提案する。
クエリとして各ポリゴンを定式化し、潜在的ビルディングの最も関連性の高い領域に対してクエリの注意を拘束する。
本手法は,2次元フロアプラン再構築データセットであるStructured3Dを用いて,ベクトル化建物アウトライン抽出データセット(CrowdAI)と2次元フロアプラン再構築データセット(Structured3D)について評価する。
論文 参考訳(メタデータ) (2024-07-20T16:12:51Z) - UniPlane: Unified Plane Detection and Reconstruction from Posed Monocular Videos [12.328095228008893]
単眼ビデオから平面検出と再構成を統一する新しい手法であるUniPlaneを提案する。
我々はトランスフォーマーベースのディープニューラルネットワークを構築し、環境のための3D機能ボリュームを共同で構築する。
実世界のデータセットの実験では、UniPlaneは平面検出と再構成の両方において最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2024-07-04T03:02:27Z) - AirPlanes: Accurate Plane Estimation via 3D-Consistent Embeddings [26.845588648999417]
本研究では,3次元画像から平面面を推定する問題に対処する。
本稿では,平面へのクラスタリングにおける幾何を補完する多視点一貫した平面埋め込みを予測する手法を提案する。
我々は、ScanNetV2データセットの広範な評価を通じて、我々の新しい手法が既存のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2024-06-13T09:49:31Z) - Split-and-Fit: Learning B-Reps via Structure-Aware Voronoi Partitioning [50.684254969269546]
本稿では,3次元CADモデルのバウンダリ表現(B-Reps)を取得する新しい手法を提案する。
各パーティション内に1つのプリミティブを導出するために空間分割を適用する。
我々のネットワークはニューラルなボロノイ図でNVD-Netと呼ばれ、訓練データからCADモデルのボロノイ分割を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2024-06-07T21:07:49Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - A Fusion of Variational Distribution Priors and Saliency Map Replay for
Continual 3D Reconstruction [1.3812010983144802]
単一画像からの3次元物体形状の予測に焦点をあてた研究課題である。
このタスクは、形状の可視部分と隠蔽部分の両方を予測するために、重要なデータ取得を必要とする。
本稿では,従来のクラスを新しいクラスで学習した後でも合理的に再構築できる変分優先を用いたモデルの設計を目標とする,連続的な学習に基づく3D再構成手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:48:55Z) - Occupancy Planes for Single-view RGB-D Human Reconstruction [120.5818162569105]
暗黙的な機能を持つシングルビューRGB-Dヒト再構成は、しばしばポイント単位の分類として定式化される。
本稿では,カメラの視野フラストラムをスライスする平面上での占有率予測として,一視点のRGB-D人間の再構成を定式化できる占有面(OPlanes)表現を提案する。
論文 参考訳(メタデータ) (2022-08-04T17:59:56Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - PlaneRecNet: Multi-Task Learning with Cross-Task Consistency for
Piece-Wise Plane Detection and Reconstruction from a Single RGB Image [11.215334675788952]
ピアースワイドな3次元平面再構成は、特に屋内シナリオにおいて、人為的な環境の全体像の理解を提供する。
最新のアプローチは、高度なネットワークアーキテクチャを導入し、セグメンテーションと再構築結果の改善に重点を置いている。
マルチタスク畳み込みニューラルネットワークであるPlaneRecNetのクロスタスク一貫性の強化から始まります。
平面分割と深さ推定の精度を両立させる新しい損失関数(幾何学的制約)を導入する。
論文 参考訳(メタデータ) (2021-10-21T15:54:03Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。