論文の概要: PlaneRecTR: Unified Query Learning for 3D Plane Recovery from a Single
View
- arxiv url: http://arxiv.org/abs/2307.13756v2
- Date: Thu, 17 Aug 2023 14:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 22:45:28.974051
- Title: PlaneRecTR: Unified Query Learning for 3D Plane Recovery from a Single
View
- Title(参考訳): PlaneRecTR: 単一視点からの3次元平面復元のための統一クエリ学習
- Authors: Jingjia Shi, Shuaifeng Zhi, Kai Xu
- Abstract要約: PlaneRecTRはTransformerベースのアーキテクチャで、単一のコンパクトモデルで単一のビュープレーンリカバリに関連するすべてのサブタスクを統合する。
提案した統合学習はサブタスク間の相互利益を達成し,パブリックScanNetとNYUv2-Planeデータセット上での最先端のパフォーマンスを得る。
- 参考スコア(独自算出の注目度): 12.343189317320004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D plane recovery from a single image can usually be divided into several
subtasks of plane detection, segmentation, parameter estimation and possibly
depth estimation. Previous works tend to solve this task by either extending
the RCNN-based segmentation network or the dense pixel embedding-based
clustering framework. However, none of them tried to integrate above related
subtasks into a unified framework but treat them separately and sequentially,
which we suspect is potentially a main source of performance limitation for
existing approaches. Motivated by this finding and the success of query-based
learning in enriching reasoning among semantic entities, in this paper, we
propose PlaneRecTR, a Transformer-based architecture, which for the first time
unifies all subtasks related to single-view plane recovery with a single
compact model. Extensive quantitative and qualitative experiments demonstrate
that our proposed unified learning achieves mutual benefits across subtasks,
obtaining a new state-of-the-art performance on public ScanNet and NYUv2-Plane
datasets. Codes are available at https://github.com/SJingjia/PlaneRecTR.
- Abstract(参考訳): 単一画像からの3次元平面復元は通常、平面検出、セグメンテーション、パラメータ推定、そしておそらく深さ推定のいくつかのサブタスクに分けられる。
これまでの作業では、RCNNベースのセグメンテーションネットワークを拡張するか、あるいは高密度ピクセル埋め込みベースのクラスタリングフレームワークを拡張することで、この問題を解決する傾向にあった。
しかし、それらのいずれも、上記のサブタスクを統一されたフレームワークに統合しようとはしていませんが、それらを別々に、そして順次処理します。
この発見と、セマンティックエンティティ間の推論を充実させるためのクエリベースの学習の成功により、トランスフォーマーベースのアーキテクチャであるPlaneRecTRを提案し、単一のコンパクトモデルで単一のビュープレーンリカバリに関連するすべてのサブタスクを初めて統一する。
大規模な定量的および定性的な実験により、提案した統合学習がサブタスク間の相互利益を達成し、パブリックScanNetとNYUv2-Planeデータセット上で新しい最先端のパフォーマンスを得ることを示した。
コードはhttps://github.com/SJingjia/PlaneRecTRで入手できる。
関連論文リスト
- UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
粗大なパラダイムに基づいて、UNOPoseはSE(3)不変の参照フレームを構築し、オブジェクト表現を標準化する。
重なり合う領域内に存在すると予測される確率に基づいて、各対応の重みを補正する。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - MonoPlane: Exploiting Monocular Geometric Cues for Generalizable 3D Plane Reconstruction [37.481945507799594]
本稿では,MonoPlaneという汎用的な3次元平面検出・再構成フレームワークを提案する。
まず、大規模な事前学習ニューラルネットワークを用いて、1つの画像から深度と表面の正常値を得る。
これらの特異な幾何学的手がかりを近接誘導RANSACフレームワークに組み込んで各平面インスタンスに順次適合させる。
論文 参考訳(メタデータ) (2024-11-02T12:15:29Z) - UniPlane: Unified Plane Detection and Reconstruction from Posed Monocular Videos [12.328095228008893]
単眼ビデオから平面検出と再構成を統一する新しい手法であるUniPlaneを提案する。
我々はトランスフォーマーベースのディープニューラルネットワークを構築し、環境のための3D機能ボリュームを共同で構築する。
実世界のデータセットの実験では、UniPlaneは平面検出と再構成の両方において最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2024-07-04T03:02:27Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z) - Multi-task Planar Reconstruction with Feature Warping Guidance [3.95944314850151]
ピースワイドな平面3D再構成は、同時に平面インスタンスを分割し、画像からそれらの平面パラメータを復元する。
本稿では,修正インスタンスセグメンテーションアーキテクチャに基づくリアルタイム平面再構成モデルであるSOLOPlanesを紹介する。
本モデルでは,43FPSでリアルタイムな予測を行いながら,単一画像の推測時にセマンティクスを同時に予測する。
論文 参考訳(メタデータ) (2023-11-25T09:53:42Z) - RelPose++: Recovering 6D Poses from Sparse-view Observations [66.6922660401558]
スパースビュー画像集合(2-8画像)から6次元カメラポーズを推定する作業に対処する。
我々は,画像対上の相対回転よりも分布を推定するネットワークを学習するRelPoseフレームワークを構築した。
最終システムは,先行技術よりも6次元ポーズ予測を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-08T17:59:58Z) - NOPE-SAC: Neural One-Plane RANSAC for Sparse-View Planar 3D
Reconstruction [41.00845324937751]
本稿では,厳密なスパースビュー構成による2次元3次元再構成の課題について検討する。
本稿では,ワンプレーンのポーズ仮説を学習する優れた能力を発揮する新しいニューラルワンプレーンRANSACフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T07:33:14Z) - Occupancy Planes for Single-view RGB-D Human Reconstruction [120.5818162569105]
暗黙的な機能を持つシングルビューRGB-Dヒト再構成は、しばしばポイント単位の分類として定式化される。
本稿では,カメラの視野フラストラムをスライスする平面上での占有率予測として,一視点のRGB-D人間の再構成を定式化できる占有面(OPlanes)表現を提案する。
論文 参考訳(メタデータ) (2022-08-04T17:59:56Z) - PlaneRecNet: Multi-Task Learning with Cross-Task Consistency for
Piece-Wise Plane Detection and Reconstruction from a Single RGB Image [11.215334675788952]
ピアースワイドな3次元平面再構成は、特に屋内シナリオにおいて、人為的な環境の全体像の理解を提供する。
最新のアプローチは、高度なネットワークアーキテクチャを導入し、セグメンテーションと再構築結果の改善に重点を置いている。
マルチタスク畳み込みニューラルネットワークであるPlaneRecNetのクロスタスク一貫性の強化から始まります。
平面分割と深さ推定の精度を両立させる新しい損失関数(幾何学的制約)を導入する。
論文 参考訳(メタデータ) (2021-10-21T15:54:03Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。