論文の概要: PlaneTR: Structure-Guided Transformers for 3D Plane Recovery
- arxiv url: http://arxiv.org/abs/2107.13108v1
- Date: Tue, 27 Jul 2021 23:55:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 00:13:13.829206
- Title: PlaneTR: Structure-Guided Transformers for 3D Plane Recovery
- Title(参考訳): 平面TR:3次元平面復元用構造誘導変圧器
- Authors: Bin Tan and Nan Xue and Song Bai and Tianfu Wu and Gui-Song Xia
- Abstract要約: 平面TRは1つの画像から同時に平面を検出し、再構成する。
PlaneTRはScanNetとNYUv2データセット上で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 56.23402171871664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a neural network built upon Transformers, namely PlaneTR,
to simultaneously detect and reconstruct planes from a single image. Different
from previous methods, PlaneTR jointly leverages the context information and
the geometric structures in a sequence-to-sequence way to holistically detect
plane instances in one forward pass. Specifically, we represent the geometric
structures as line segments and conduct the network with three main components:
(i) context and line segments encoders, (ii) a structure-guided plane decoder,
(iii) a pixel-wise plane embedding decoder. Given an image and its detected
line segments, PlaneTR generates the context and line segment sequences via two
specially designed encoders and then feeds them into a Transformers-based
decoder to directly predict a sequence of plane instances by simultaneously
considering the context and global structure cues. Finally, the pixel-wise
embeddings are computed to assign each pixel to one predicted plane instance
which is nearest to it in embedding space. Comprehensive experiments
demonstrate that PlaneTR achieves a state-of-the-art performance on the ScanNet
and NYUv2 datasets.
- Abstract(参考訳): 本論文では,PlaneTRというトランスフォーマー上に構築されたニューラルネットワークを用いて,単一画像からの平面の同時検出と再構成を行う。
従来の方法と異なり、PlaneTRはコンテキスト情報と幾何構造をシーケンス・ツー・シーケンスの方法で共同で利用して、1つの前方通過における平面インスタンスを水平に検出する。
具体的には、幾何学的構造を線分として表現し、(i)コンテキストおよび線分エンコーダ、(ii)構造誘導平面デコーダ、(iii)画素方向平面埋め込みデコーダの3つの主成分でネットワークを行う。
画像とその検出された行セグメントが与えられた後、PlaneTRは2つの特別に設計されたエンコーダを介してコンテキストと行セグメントシーケンスを生成し、それをTransformersベースのデコーダに入力し、コンテキストとグローバル構造を同時に考慮して平面インスタンスのシーケンスを直接予測する。
最後に、各画素を埋め込み空間に最も近い1つの予測平面インスタンスに割り当てるために画素分割を計算する。
包括的な実験では、PlaneTRがScanNetとNYUv2データセット上で最先端のパフォーマンスを達成している。
関連論文リスト
- UniPlane: Unified Plane Detection and Reconstruction from Posed Monocular Videos [12.328095228008893]
単眼ビデオから平面検出と再構成を統一する新しい手法であるUniPlaneを提案する。
我々はトランスフォーマーベースのディープニューラルネットワークを構築し、環境のための3D機能ボリュームを共同で構築する。
実世界のデータセットの実験では、UniPlaneは平面検出と再構成の両方において最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2024-07-04T03:02:27Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - PlanarRecon: Real-time 3D Plane Detection and Reconstruction from Posed
Monocular Videos [32.286637700503995]
PlanarReconは、提示されたモノクロビデオから3次元平面のグローバルなコヒーレントな検出と再構築のためのフレームワークである。
学習ベースのトラッキングと融合モジュールは、以前のフラグメントから平面をマージして、コヒーレントなグローバルな平面再構成を形成するように設計されている。
実験の結果,提案手法はリアルタイムでありながら,ScanNetデータセット上での最先端のパフォーマンスを実現することがわかった。
論文 参考訳(メタデータ) (2022-06-15T17:59:16Z) - PlaneMVS: 3D Plane Reconstruction from Multi-View Stereo [32.81496429134453]
カメラのポーズによる複数入力ビューからの3次元平面再構成のための新しいフレームワークPlainMVSを提案する。
対照的に、マルチビュー幾何学を利用するマルチビューステレオ(MVS)パイプラインで3次元平面を再構成する。
本手法は,学習面の先行性により,SOTA学習に基づくMVS手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-22T22:35:46Z) - Monocular Road Planar Parallax Estimation [25.36368935789501]
乾燥可能な表面および周囲環境の3次元構造を推定することは、補助的かつ自律的な運転にとって重要な課題である。
単眼画像からの3Dセンシングのための新しいディープニューラルネットワークであるRoad Planar Parallax Attention Network (RPANet)を提案する。
RPANetは、路面のホモグラフィに整列した一対の画像を入力として取り、3D再構成のための$gamma$mapを出力する。
論文 参考訳(メタデータ) (2021-11-22T10:03:41Z) - Multi-Plane Program Induction with 3D Box Priors [110.6726150681556]
1つの画像からプログラムライクなシーン表現を推論するBox Program Injection (BPI)を提案する。
BPIは同時に、複数の2次元平面上の繰り返し構造、平面の3次元位置と向き、およびカメラパラメータをモデル化する。
ニューラルネットワークを使って、点の消滅やワイヤーフレーム線などの視覚的手がかりを推論し、検索ベースのアルゴリズムを誘導し、最もよく画像を説明するプログラムを見つける。
論文 参考訳(メタデータ) (2020-11-19T18:07:46Z) - Dynamic Plane Convolutional Occupancy Networks [4.607145155913717]
本研究では,3次元表面再構成の精度を高めるために,動的平面畳み込み機能ネットワークを提案する。
完全に接続されたネットワークは、オブジェクトやシーンの形状を最もよく記述する平面パラメータを予測することを学ぶ。
提案手法は,ShapeNetの無向点雲と屋内シーンデータセットからの表面再構成において,優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-11T14:24:52Z) - KAPLAN: A 3D Point Descriptor for Shape Completion [80.15764700137383]
KAPLANは、一連の2D畳み込みを通じて局所的な形状情報を集約する3Dポイント記述子である。
各平面において、正規点や平面間距離のような点特性は2次元グリッドに集約され、効率的な2次元畳み込みエンコーダを持つ特徴表現に抽象化される。
公開データセットの実験では、KAPLANが3D形状の完成のために最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2020-07-31T21:56:08Z) - LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention [100.52873557168637]
3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
論文 参考訳(メタデータ) (2020-04-03T06:06:52Z) - From Planes to Corners: Multi-Purpose Primitive Detection in Unorganized
3D Point Clouds [59.98665358527686]
直交平面の分割自由結合推定法を提案する。
このような統合されたシーン探索は、セマンティックプレーンの検出や局所的およびグローバルなスキャンアライメントといった、多目的のアプリケーションを可能にする。
本実験は,壁面検出から6次元トラッキングに至るまで,様々なシナリオにおいて,我々のアプローチの有効性を実証するものである。
論文 参考訳(メタデータ) (2020-01-21T06:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。