論文の概要: PQ-Transformer: Jointly Parsing 3D Objects and Layouts from Point Clouds
- arxiv url: http://arxiv.org/abs/2109.05566v1
- Date: Sun, 12 Sep 2021 17:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 10:17:33.327580
- Title: PQ-Transformer: Jointly Parsing 3D Objects and Layouts from Point Clouds
- Title(参考訳): PQ変換器:ポイントクラウドから3次元オブジェクトとレイアウトを共同解析する
- Authors: Xiaoxue Chen, Hao Zhao, Guyue Zhou, Ya-Qin Zhang
- Abstract要約: 点雲からの3Dシーン理解は、様々なロボットアプリケーションにおいて重要な役割を果たす。
現在の最先端の手法では、オブジェクト検出や部屋のレイアウト推定など、さまざまなタスクに別々のニューラルネットワークを使用している。
本稿では,3次元オブジェクトとレイアウトを同時に予測するトランスフォーマーアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 4.381579507834533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D scene understanding from point clouds plays a vital role for various
robotic applications. Unfortunately, current state-of-the-art methods use
separate neural networks for different tasks like object detection or room
layout estimation. Such a scheme has two limitations: 1) Storing and running
several networks for different tasks are expensive for typical robotic
platforms. 2) The intrinsic structure of separate outputs are ignored and
potentially violated. To this end, we propose the first transformer
architecture that predicts 3D objects and layouts simultaneously, using point
cloud inputs. Unlike existing methods that either estimate layout keypoints or
edges, we directly parameterize room layout as a set of quads. As such, the
proposed architecture is termed as P(oint)Q(uad)-Transformer. Along with the
novel quad representation, we propose a tailored physical constraint loss
function that discourages object-layout interference. The quantitative and
qualitative evaluations on the public benchmark ScanNet show that the proposed
PQ-Transformer succeeds to jointly parse 3D objects and layouts, running at a
quasi-real-time (8.91 FPS) rate without efficiency-oriented optimization.
Moreover, the new physical constraint loss can improve strong baselines, and
the F1-score of the room layout is significantly promoted from 37.9% to 57.9%.
- Abstract(参考訳): 点雲からの3Dシーン理解は、様々なロボットアプリケーションにおいて重要な役割を果たす。
残念ながら、現在の最先端の手法では、オブジェクト検出や部屋のレイアウト推定など、さまざまなタスクに別々のニューラルネットワークを使用する。
そのようなスキームには2つの制限がある。
1) 異なるタスクのための複数のネットワークの保存と実行は、一般的なロボットプラットフォームでは高価である。
2) 分離出力の固有の構造は無視され、潜在的に侵害される可能性がある。
そこで本稿では,ポイントクラウド入力を用いて3dオブジェクトとレイアウトを同時に予測する最初のトランスフォーマーアーキテクチャを提案する。
レイアウトキーポイントやエッジを推定する既存の方法とは異なり、ルームレイアウトをクワッドのセットとして直接パラメータ化します。
したがって、提案されたアーキテクチャは p(oint)q(uad)-transformer と呼ばれる。
本稿では,新しいクワッド表現とともに,オブジェクトレイアウトの干渉を阻害する物理制約損失関数を提案する。
公開ベンチマークscannetの定量的・質的評価により,提案するpq変換器は,効率指向最適化を伴わずに準リアルタイム (8.91 fps) で動作する3dオブジェクトとレイアウトを共同で解析することに成功した。
さらに、新しい物理的制約損失により、強いベースラインが向上し、部屋レイアウトのF1スコアが37.9%から57.9%に大幅に向上する。
関連論文リスト
- CabiNet: Scaling Neural Collision Detection for Object Rearrangement
with Procedural Scene Generation [54.68738348071891]
私たちはまず、さまざまな日常環境において、650万以上の散らばったシーン(前よりも桁違いに多い)を生成します。
このデータから合成部分点雲をレンダリングし、それをCabiNetモデルアーキテクチャのトレーニングに使用します。
CabiNetは、オブジェクトとシーンポイントの雲を受け入れる衝突モデルである。
論文 参考訳(メタデータ) (2023-04-18T21:09:55Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Exploiting More Information in Sparse Point Cloud for 3D Single Object
Tracking [9.693724357115762]
3Dオブジェクトトラッキングは、3Dコンピュータビジョンにおける重要なタスクである。
点雲の空間性は、類似性を計算し、対象を見つけるのを難しくする。
本稿では3次元オブジェクト追跡のためのスパース・トゥ・デンス・トランスフォーマー・ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-02T13:38:30Z) - SEFormer: Structure Embedding Transformer for 3D Object Detection [22.88983416605276]
Structure-Embedding TransFormer (SEFormer)は、ローカル構造を従来のTransformerとして保存するが、ローカル構造をエンコードする機能もある。
SEFormerは79.02%のmAPを達成しており、これは既存の作業よりも1.2%高い。
論文 参考訳(メタデータ) (2022-09-05T03:38:12Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - HyperFlow: Representing 3D Objects as Surfaces [19.980044265074298]
本稿では,ハイパーネットを利用した新しい生成モデルを提案する。
我々は、競合するアプローチよりも質的な結果が得られる連続的なメッシュベースのオブジェクト表現を得る。
論文 参考訳(メタデータ) (2020-06-15T19:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。