Fugu-MT 論文翻訳(概要): PlaneRecTR++: Unified Query Learning for Joint 3D Planar Reconstruction and Pose Estimation

論文の概要: PlaneRecTR++: Unified Query Learning for Joint 3D Planar Reconstruction and Pose Estimation

arxiv url: http://arxiv.org/abs/2307.13756v3
Date: Mon, 9 Sep 2024 08:43:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 04:13:49.978852
Title: PlaneRecTR++: Unified Query Learning for Joint 3D Planar Reconstruction and Pose Estimation
Title（参考訳）: PlaneRecTR++: 共同3次元平面再構成のための統一クエリ学習とポース推定
Authors: Jingjia Shi, Shuaifeng Zhi, Kai Xu,
Abstract要約: PlaneRecTR++はTransformerベースのアーキテクチャで、マルチビューの再構築とポーズ推定に関連するすべてのサブタスクを統合する。提案した統合学習は,ScanNetv1,ScanNetv2,NYUv2-Plane,MatterPort3Dデータセット上での最先端のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 10.982464344805194
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D plane reconstruction from images can usually be divided into several sub-tasks of plane detection, segmentation, parameters regression and possibly depth prediction for per-frame, along with plane correspondence and relative camera pose estimation between frames. Previous works tend to divide and conquer these sub-tasks with distinct network modules, overall formulated by a two-stage paradigm. With an initial camera pose and per-frame plane predictions provided from the first stage, exclusively designed modules, potentially relying on extra plane correspondence labelling, are applied to merge multi-view plane entities and produce 6DoF camera pose. As none of existing works manage to integrate above closely related sub-tasks into a unified framework but treat them separately and sequentially, we suspect it potentially as a main source of performance limitation for existing approaches. Motivated by this finding and the success of query-based learning in enriching reasoning among semantic entities, in this paper, we propose PlaneRecTR++, a Transformer-based architecture, which for the first time unifies all sub-tasks related to multi-view reconstruction and pose estimation with a compact single-stage model, refraining from initial pose estimation and plane correspondence supervision. Extensive quantitative and qualitative experiments demonstrate that our proposed unified learning achieves mutual benefits across sub-tasks, obtaining a new state-of-the-art performance on public ScanNetv1, ScanNetv2, NYUv2-Plane, and MatterPort3D datasets.
Abstract（参考訳）: 画像からの3次元平面再構成は通常、平面検出、セグメンテーション、パラメータ回帰、おそらくフレームごとの深さ予測のいくつかのサブタスクと、フレーム間の平面対応と相対的なカメラポーズ推定に分割することができる。以前の作業では、これらのサブタスクを異なるネットワークモジュールで分割し、征服する傾向があり、全体としては2段階のパラダイムで定式化されている。初期カメラのポーズと第1段から提供されるフレームごとの平面予測により、追加の平面対応ラベリングに依存する可能性のある設計モジュールが、マルチビュー平面のエンティティをマージして6DoFカメラのポーズを生成する。既存のどの作業も、密接な関係のあるサブタスクを統一されたフレームワークに統合することはできませんが、それらを個別に、そして逐次的に扱います。この発見とセマンティックエンティティ間の推論を充実させるためのクエリベースの学習の成功により、我々はPlaneRecTR++を提案する。このPlaneRecTR++は、トランスフォーマーベースのアーキテクチャで、マルチビュー再構成に関連するすべてのサブタスクを初めて統合し、コンパクトな単一ステージモデルでポーズ推定を行い、初期ポーズ推定や平面対応の監督を控える。 ScanNetv1、ScanNetv2、NYUv2-Plane、MatterPort3Dデータセット上で、我々の提案した統一学習は、サブタスク間で相互に利益を得ることを示す。

関連論文リスト

Towards In-the-wild 3D Plane Reconstruction from a Single Image [16.857296782216206]
単一の画像から3D平面を再構築することは、3Dコンピュータビジョンにおいて重要な課題である。これまでの最先端の手法は、屋内または屋外のドメインから1つのデータセットでシステムのトレーニングに重点を置いてきた。ゼロショット3次元平面の検出と再構成を目的としたトランスフォーマーベースモデルであるZeroPlaneを紹介した。
論文参考訳（メタデータ） (2025-06-03T06:14:05Z)
Structure-Aware Correspondence Learning for Relative Pose Estimation [65.44234975976451]
相対的なポーズ推定は、オブジェクトに依存しないポーズ推定を達成するための有望な方法を提供する。既存の3D対応方式は、可視領域における小さな重複と、可視領域に対する信頼できない特徴推定に悩まされている。本稿では,2つの鍵モジュールからなる相対詩推定のための構造認識対応学習手法を提案する。
論文参考訳（メタデータ） (2025-03-24T13:43:44Z)
Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model [15.892685514932323]
マルチビュールームレイアウト推定のための新しい手法であるPlain-DUSt3Rを提案する。 Plane-DUSt3RはDUSt3Rフレームワークを室内レイアウトデータセット(Structure3D)に組み込んで構造平面を推定する。均一かつ同相な結果を生成することにより、Plane-DUSt3Rは、単一の後処理ステップと2D検出結果のみを用いて、部屋レイアウトの推定を可能にする。
論文参考訳（メタデータ） (2025-02-24T02:14:19Z)
FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [93.6881532277553]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文参考訳（メタデータ） (2025-02-17T18:54:05Z)
UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。粗大なパラダイムに基づいて、UNOPoseはSE(3)不変の参照フレームを構築し、オブジェクト表現を標準化する。重なり合う領域内に存在すると予測される確率に基づいて、各対応の重みを補正する。
論文参考訳（メタデータ） (2024-11-25T05:36:00Z)
MonoPlane: Exploiting Monocular Geometric Cues for Generalizable 3D Plane Reconstruction [37.481945507799594]
本稿では,MonoPlaneという汎用的な3次元平面検出・再構成フレームワークを提案する。まず、大規模な事前学習ニューラルネットワークを用いて、1つの画像から深度と表面の正常値を得る。これらの特異な幾何学的手がかりを近接誘導RANSACフレームワークに組み込んで各平面インスタンスに順次適合させる。
論文参考訳（メタデータ） (2024-11-02T12:15:29Z)
UniPlane: Unified Plane Detection and Reconstruction from Posed Monocular Videos [12.328095228008893]
単眼ビデオから平面検出と再構成を統一する新しい手法であるUniPlaneを提案する。我々はトランスフォーマーベースのディープニューラルネットワークを構築し、環境のための3D機能ボリュームを共同で構築する。実世界のデータセットの実験では、UniPlaneは平面検出と再構成の両方において最先端の手法より優れていることが示されている。
論文参考訳（メタデータ） (2024-07-04T03:02:27Z)
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文参考訳（メタデータ） (2023-12-13T18:28:09Z)
Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文参考訳（メタデータ） (2023-12-12T13:22:44Z)
Multi-task Planar Reconstruction with Feature Warping Guidance [3.95944314850151]
ピースワイドな平面3D再構成は、同時に平面インスタンスを分割し、画像からそれらの平面パラメータを復元する。本稿では,修正インスタンスセグメンテーションアーキテクチャに基づくリアルタイム平面再構成モデルであるSOLOPlanesを紹介する。本モデルでは,43FPSでリアルタイムな予測を行いながら,単一画像の推測時にセマンティクスを同時に予測する。
論文参考訳（メタデータ） (2023-11-25T09:53:42Z)
RelPose++: Recovering 6D Poses from Sparse-view Observations [66.6922660401558]
スパースビュー画像集合(2-8画像)から6次元カメラポーズを推定する作業に対処する。我々は,画像対上の相対回転よりも分布を推定するネットワークを学習するRelPoseフレームワークを構築した。最終システムは,先行技術よりも6次元ポーズ予測を大幅に改善する。
論文参考訳（メタデータ） (2023-05-08T17:59:58Z)
NOPE-SAC: Neural One-Plane RANSAC for Sparse-View Planar 3D Reconstruction [41.00845324937751]
本稿では,厳密なスパースビュー構成による2次元3次元再構成の課題について検討する。本稿では,ワンプレーンのポーズ仮説を学習する優れた能力を発揮する新しいニューラルワンプレーンRANSACフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-30T07:33:14Z)
Occupancy Planes for Single-view RGB-D Human Reconstruction [120.5818162569105]
暗黙的な機能を持つシングルビューRGB-Dヒト再構成は、しばしばポイント単位の分類として定式化される。本稿では,カメラの視野フラストラムをスライスする平面上での占有率予測として,一視点のRGB-D人間の再構成を定式化できる占有面(OPlanes)表現を提案する。
論文参考訳（メタデータ） (2022-08-04T17:59:56Z)
PlaneRecNet: Multi-Task Learning with Cross-Task Consistency for Piece-Wise Plane Detection and Reconstruction from a Single RGB Image [11.215334675788952]
ピアースワイドな3次元平面再構成は、特に屋内シナリオにおいて、人為的な環境の全体像の理解を提供する。最新のアプローチは、高度なネットワークアーキテクチャを導入し、セグメンテーションと再構築結果の改善に重点を置いている。マルチタスク畳み込みニューラルネットワークであるPlaneRecNetのクロスタスク一貫性の強化から始まります。平面分割と深さ推定の精度を両立させる新しい損失関数(幾何学的制約)を導入する。
論文参考訳（メタデータ） (2021-10-21T15:54:03Z)
Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文参考訳（メタデータ） (2021-04-06T03:49:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。