論文の概要: PlaneRecTR: Unified Query Learning for 3D Plane Recovery from a Single
View
- arxiv url: http://arxiv.org/abs/2307.13756v2
- Date: Thu, 17 Aug 2023 14:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 22:45:28.974051
- Title: PlaneRecTR: Unified Query Learning for 3D Plane Recovery from a Single
View
- Title(参考訳): PlaneRecTR: 単一視点からの3次元平面復元のための統一クエリ学習
- Authors: Jingjia Shi, Shuaifeng Zhi, Kai Xu
- Abstract要約: PlaneRecTRはTransformerベースのアーキテクチャで、単一のコンパクトモデルで単一のビュープレーンリカバリに関連するすべてのサブタスクを統合する。
提案した統合学習はサブタスク間の相互利益を達成し,パブリックScanNetとNYUv2-Planeデータセット上での最先端のパフォーマンスを得る。
- 参考スコア(独自算出の注目度): 12.343189317320004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D plane recovery from a single image can usually be divided into several
subtasks of plane detection, segmentation, parameter estimation and possibly
depth estimation. Previous works tend to solve this task by either extending
the RCNN-based segmentation network or the dense pixel embedding-based
clustering framework. However, none of them tried to integrate above related
subtasks into a unified framework but treat them separately and sequentially,
which we suspect is potentially a main source of performance limitation for
existing approaches. Motivated by this finding and the success of query-based
learning in enriching reasoning among semantic entities, in this paper, we
propose PlaneRecTR, a Transformer-based architecture, which for the first time
unifies all subtasks related to single-view plane recovery with a single
compact model. Extensive quantitative and qualitative experiments demonstrate
that our proposed unified learning achieves mutual benefits across subtasks,
obtaining a new state-of-the-art performance on public ScanNet and NYUv2-Plane
datasets. Codes are available at https://github.com/SJingjia/PlaneRecTR.
- Abstract(参考訳): 単一画像からの3次元平面復元は通常、平面検出、セグメンテーション、パラメータ推定、そしておそらく深さ推定のいくつかのサブタスクに分けられる。
これまでの作業では、RCNNベースのセグメンテーションネットワークを拡張するか、あるいは高密度ピクセル埋め込みベースのクラスタリングフレームワークを拡張することで、この問題を解決する傾向にあった。
しかし、それらのいずれも、上記のサブタスクを統一されたフレームワークに統合しようとはしていませんが、それらを別々に、そして順次処理します。
この発見と、セマンティックエンティティ間の推論を充実させるためのクエリベースの学習の成功により、トランスフォーマーベースのアーキテクチャであるPlaneRecTRを提案し、単一のコンパクトモデルで単一のビュープレーンリカバリに関連するすべてのサブタスクを初めて統一する。
大規模な定量的および定性的な実験により、提案した統合学習がサブタスク間の相互利益を達成し、パブリックScanNetとNYUv2-Planeデータセット上で新しい最先端のパフォーマンスを得ることを示した。
コードはhttps://github.com/SJingjia/PlaneRecTRで入手できる。
関連論文リスト
- FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [60.9306410617744]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Cluster Exploration using Informative Manifold Projections [0.0]
次元減少(DR)は、高次元データの視覚的探索の鍵となるツールの1つである。
本稿では,様々な事前知識に関連付けられた構造を抽出する情報埋め込みを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-09-26T11:35:25Z) - X-PDNet: Accurate Joint Plane Instance Segmentation and Monocular Depth
Estimation with Cross-Task Distillation and Boundary Correction [9.215384107659665]
X-PDNetは平面インスタンス分割と深さ推定のマルチタスク学習のためのフレームワークである。
我々は、境界回帰損失を増大させるために、基底真理境界を用いることの現在の限界を強調した。
境界領域分割を支援するために深度情報を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T14:27:54Z) - A Fusion of Variational Distribution Priors and Saliency Map Replay for
Continual 3D Reconstruction [1.3812010983144802]
単一画像からの3次元物体形状の予測に焦点をあてた研究課題である。
このタスクは、形状の可視部分と隠蔽部分の両方を予測するために、重要なデータ取得を必要とする。
本稿では,従来のクラスを新しいクラスで学習した後でも合理的に再構築できる変分優先を用いたモデルの設計を目標とする,連続的な学習に基づく3D再構成手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:48:55Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Occupancy Planes for Single-view RGB-D Human Reconstruction [120.5818162569105]
暗黙的な機能を持つシングルビューRGB-Dヒト再構成は、しばしばポイント単位の分類として定式化される。
本稿では,カメラの視野フラストラムをスライスする平面上での占有率予測として,一視点のRGB-D人間の再構成を定式化できる占有面(OPlanes)表現を提案する。
論文 参考訳(メタデータ) (2022-08-04T17:59:56Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - PlaneRecNet: Multi-Task Learning with Cross-Task Consistency for
Piece-Wise Plane Detection and Reconstruction from a Single RGB Image [11.215334675788952]
ピアースワイドな3次元平面再構成は、特に屋内シナリオにおいて、人為的な環境の全体像の理解を提供する。
最新のアプローチは、高度なネットワークアーキテクチャを導入し、セグメンテーションと再構築結果の改善に重点を置いている。
マルチタスク畳み込みニューラルネットワークであるPlaneRecNetのクロスタスク一貫性の強化から始まります。
平面分割と深さ推定の精度を両立させる新しい損失関数(幾何学的制約)を導入する。
論文 参考訳(メタデータ) (2021-10-21T15:54:03Z) - Exploring Multi-dimensional Data via Subset Embedding [13.092303047029311]
サブセットパターンを探索する視覚分析手法を提案する。
アプローチの中核はサブセット埋め込みネットワーク(SEN)であり、サブセットの群を一様に変形した埋め込みとして表現する。
この設計により、任意のサブセットを処理し、単一の機能でサブセットの類似性をキャプチャできる。
論文 参考訳(メタデータ) (2021-04-24T03:08:08Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。