Fugu-MT 論文翻訳(概要): PlaneRecTR: Unified Query Learning for 3D Plane Recovery from a Single View

論文の概要: PlaneRecTR: Unified Query Learning for 3D Plane Recovery from a Single View

arxiv url: http://arxiv.org/abs/2307.13756v2
Date: Thu, 17 Aug 2023 14:56:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-21 22:45:28.974051
Title: PlaneRecTR: Unified Query Learning for 3D Plane Recovery from a Single View
Title（参考訳）: PlaneRecTR: 単一視点からの3次元平面復元のための統一クエリ学習
Authors: Jingjia Shi, Shuaifeng Zhi, Kai Xu
Abstract要約: PlaneRecTRはTransformerベースのアーキテクチャで、単一のコンパクトモデルで単一のビュープレーンリカバリに関連するすべてのサブタスクを統合する。提案した統合学習はサブタスク間の相互利益を達成し,パブリックScanNetとNYUv2-Planeデータセット上での最先端のパフォーマンスを得る。
参考スコア（独自算出の注目度）: 12.343189317320004
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D plane recovery from a single image can usually be divided into several subtasks of plane detection, segmentation, parameter estimation and possibly depth estimation. Previous works tend to solve this task by either extending the RCNN-based segmentation network or the dense pixel embedding-based clustering framework. However, none of them tried to integrate above related subtasks into a unified framework but treat them separately and sequentially, which we suspect is potentially a main source of performance limitation for existing approaches. Motivated by this finding and the success of query-based learning in enriching reasoning among semantic entities, in this paper, we propose PlaneRecTR, a Transformer-based architecture, which for the first time unifies all subtasks related to single-view plane recovery with a single compact model. Extensive quantitative and qualitative experiments demonstrate that our proposed unified learning achieves mutual benefits across subtasks, obtaining a new state-of-the-art performance on public ScanNet and NYUv2-Plane datasets. Codes are available at https://github.com/SJingjia/PlaneRecTR.
Abstract（参考訳）: 単一画像からの3次元平面復元は通常、平面検出、セグメンテーション、パラメータ推定、そしておそらく深さ推定のいくつかのサブタスクに分けられる。これまでの作業では、RCNNベースのセグメンテーションネットワークを拡張するか、あるいは高密度ピクセル埋め込みベースのクラスタリングフレームワークを拡張することで、この問題を解決する傾向にあった。しかし、それらのいずれも、上記のサブタスクを統一されたフレームワークに統合しようとはしていませんが、それらを別々に、そして順次処理します。この発見と、セマンティックエンティティ間の推論を充実させるためのクエリベースの学習の成功により、トランスフォーマーベースのアーキテクチャであるPlaneRecTRを提案し、単一のコンパクトモデルで単一のビュープレーンリカバリに関連するすべてのサブタスクを初めて統一する。大規模な定量的および定性的な実験により、提案した統合学習がサブタスク間の相互利益を達成し、パブリックScanNetとNYUv2-Planeデータセット上で新しい最先端のパフォーマンスを得ることを示した。コードはhttps://github.com/SJingjia/PlaneRecTRで入手できる。

関連論文リスト

Towards In-the-wild 3D Plane Reconstruction from a Single Image [16.857296782216206]
単一の画像から3D平面を再構築することは、3Dコンピュータビジョンにおいて重要な課題である。これまでの最先端の手法は、屋内または屋外のドメインから1つのデータセットでシステムのトレーニングに重点を置いてきた。ゼロショット3次元平面の検出と再構成を目的としたトランスフォーマーベースモデルであるZeroPlaneを紹介した。
論文参考訳（メタデータ） (2025-06-03T06:14:05Z)
Structure-Aware Correspondence Learning for Relative Pose Estimation [65.44234975976451]
相対的なポーズ推定は、オブジェクトに依存しないポーズ推定を達成するための有望な方法を提供する。既存の3D対応方式は、可視領域における小さな重複と、可視領域に対する信頼できない特徴推定に悩まされている。本稿では,2つの鍵モジュールからなる相対詩推定のための構造認識対応学習手法を提案する。
論文参考訳（メタデータ） (2025-03-24T13:43:44Z)
Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model [15.892685514932323]
マルチビュールームレイアウト推定のための新しい手法であるPlain-DUSt3Rを提案する。 Plane-DUSt3RはDUSt3Rフレームワークを室内レイアウトデータセット(Structure3D)に組み込んで構造平面を推定する。均一かつ同相な結果を生成することにより、Plane-DUSt3Rは、単一の後処理ステップと2D検出結果のみを用いて、部屋レイアウトの推定を可能にする。
論文参考訳（メタデータ） (2025-02-24T02:14:19Z)
FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [93.6881532277553]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文参考訳（メタデータ） (2025-02-17T18:54:05Z)
UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。粗大なパラダイムに基づいて、UNOPoseはSE(3)不変の参照フレームを構築し、オブジェクト表現を標準化する。重なり合う領域内に存在すると予測される確率に基づいて、各対応の重みを補正する。
論文参考訳（メタデータ） (2024-11-25T05:36:00Z)
MonoPlane: Exploiting Monocular Geometric Cues for Generalizable 3D Plane Reconstruction [37.481945507799594]
本稿では,MonoPlaneという汎用的な3次元平面検出・再構成フレームワークを提案する。まず、大規模な事前学習ニューラルネットワークを用いて、1つの画像から深度と表面の正常値を得る。これらの特異な幾何学的手がかりを近接誘導RANSACフレームワークに組み込んで各平面インスタンスに順次適合させる。
論文参考訳（メタデータ） (2024-11-02T12:15:29Z)
UniPlane: Unified Plane Detection and Reconstruction from Posed Monocular Videos [12.328095228008893]
単眼ビデオから平面検出と再構成を統一する新しい手法であるUniPlaneを提案する。我々はトランスフォーマーベースのディープニューラルネットワークを構築し、環境のための3D機能ボリュームを共同で構築する。実世界のデータセットの実験では、UniPlaneは平面検出と再構成の両方において最先端の手法より優れていることが示されている。
論文参考訳（メタデータ） (2024-07-04T03:02:27Z)
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文参考訳（メタデータ） (2023-12-13T18:28:09Z)
Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文参考訳（メタデータ） (2023-12-12T13:22:44Z)
Multi-task Planar Reconstruction with Feature Warping Guidance [3.95944314850151]
ピースワイドな平面3D再構成は、同時に平面インスタンスを分割し、画像からそれらの平面パラメータを復元する。本稿では,修正インスタンスセグメンテーションアーキテクチャに基づくリアルタイム平面再構成モデルであるSOLOPlanesを紹介する。本モデルでは,43FPSでリアルタイムな予測を行いながら,単一画像の推測時にセマンティクスを同時に予測する。
論文参考訳（メタデータ） (2023-11-25T09:53:42Z)
RelPose++: Recovering 6D Poses from Sparse-view Observations [66.6922660401558]
スパースビュー画像集合(2-8画像)から6次元カメラポーズを推定する作業に対処する。我々は,画像対上の相対回転よりも分布を推定するネットワークを学習するRelPoseフレームワークを構築した。最終システムは,先行技術よりも6次元ポーズ予測を大幅に改善する。
論文参考訳（メタデータ） (2023-05-08T17:59:58Z)
NOPE-SAC: Neural One-Plane RANSAC for Sparse-View Planar 3D Reconstruction [41.00845324937751]
本稿では,厳密なスパースビュー構成による2次元3次元再構成の課題について検討する。本稿では,ワンプレーンのポーズ仮説を学習する優れた能力を発揮する新しいニューラルワンプレーンRANSACフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-30T07:33:14Z)
Occupancy Planes for Single-view RGB-D Human Reconstruction [120.5818162569105]
暗黙的な機能を持つシングルビューRGB-Dヒト再構成は、しばしばポイント単位の分類として定式化される。本稿では,カメラの視野フラストラムをスライスする平面上での占有率予測として,一視点のRGB-D人間の再構成を定式化できる占有面(OPlanes)表現を提案する。
論文参考訳（メタデータ） (2022-08-04T17:59:56Z)
PlaneRecNet: Multi-Task Learning with Cross-Task Consistency for Piece-Wise Plane Detection and Reconstruction from a Single RGB Image [11.215334675788952]
ピアースワイドな3次元平面再構成は、特に屋内シナリオにおいて、人為的な環境の全体像の理解を提供する。最新のアプローチは、高度なネットワークアーキテクチャを導入し、セグメンテーションと再構築結果の改善に重点を置いている。マルチタスク畳み込みニューラルネットワークであるPlaneRecNetのクロスタスク一貫性の強化から始まります。平面分割と深さ推定の精度を両立させる新しい損失関数(幾何学的制約)を導入する。
論文参考訳（メタデータ） (2021-10-21T15:54:03Z)
Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文参考訳（メタデータ） (2021-04-06T03:49:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。