論文の概要: Learning Geometry-Disentangled Representation for Complementary
Understanding of 3D Object Point Cloud
- arxiv url: http://arxiv.org/abs/2012.10921v3
- Date: Sun, 7 Feb 2021 06:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 04:41:44.555398
- Title: Learning Geometry-Disentangled Representation for Complementary
Understanding of 3D Object Point Cloud
- Title(参考訳): 3次元物体点雲の相補的理解のための幾何差分表現の学習
- Authors: Mutian Xu, Junhao Zhang, Zhipeng Zhou, Mingye Xu, Xiaojuan Qi, Yu Qiao
- Abstract要約: 3次元画像処理のためのGDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetは、点雲を3Dオブジェクトの輪郭と平らな部分に切り離し、それぞれ鋭い変化成分と穏やかな変化成分で表される。
3Dオブジェクトの分類とセグメンテーションベンチマークの実験は、GDANetがより少ないパラメータで最先端の処理を実現していることを示している。
- 参考スコア(独自算出の注目度): 50.56461318879761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In 2D image processing, some attempts decompose images into high and low
frequency components for describing edge and smooth parts respectively.
Similarly, the contour and flat area of 3D objects, such as the boundary and
seat area of a chair, describe different but also complementary geometries.
However, such investigation is lost in previous deep networks that understand
point clouds by directly treating all points or local patches equally. To solve
this problem, we propose Geometry-Disentangled Attention Network (GDANet).
GDANet introduces Geometry-Disentangle Module to dynamically disentangle point
clouds into the contour and flat part of 3D objects, respectively denoted by
sharp and gentle variation components. Then GDANet exploits Sharp-Gentle
Complementary Attention Module that regards the features from sharp and gentle
variation components as two holistic representations, and pays different
attentions to them while fusing them respectively with original point cloud
features. In this way, our method captures and refines the holistic and
complementary 3D geometric semantics from two distinct disentangled components
to supplement the local information. Extensive experiments on 3D object
classification and segmentation benchmarks demonstrate that GDANet achieves the
state-of-the-arts with fewer parameters. Code is released on
https://github.com/mutianxu/GDANet.
- Abstract(参考訳): 2次元画像処理では、エッジとスムーズな部分をそれぞれ記述するために、高周波数成分と低周波成分に分解する試みがある。
同様に、3dオブジェクトの輪郭と平坦な面積、例えば椅子の境界や座席面積は異なるが相補的なジオメトリも記述している。
しかし、すべての点や局所パッチを等しく扱うことで点雲を理解する、以前のディープネットワークではそのような調査は失われる。
そこで本研究では,GDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetはGeometry-Disentangle Moduleを導入し、点雲を3Dオブジェクトの輪郭と平らな部分に動的に分散させる。
そしてGDANetはSharp-Gentle Complementary Attention Moduleを利用して、シャープなコンポーネントと穏やかなコンポーネントの機能を2つの全体的な表現として扱い、それぞれが元のポイントクラウド機能と融合しながら異なる注意を払っている。
このようにして, 局所情報を補うために, 2つの異なる不連続成分から全体的かつ相補的な3次元幾何学的意味論を捉え, 洗練する。
3Dオブジェクトの分類とセグメンテーションのベンチマークに関する大規模な実験は、GDANetがより少ないパラメータで最先端の状態を達成することを示した。
コードはhttps://github.com/mutianxu/gdanet。
関連論文リスト
- Geometrically-driven Aggregation for Zero-shot 3D Point Cloud Understanding [11.416392706435415]
ゼロショット3Dポイントクラウド理解は2Dビジョンランゲージモデル(VLM)によって達成できる
既存の戦略は、ヴィジュアル・ランゲージ・モデル(Vision-Language Model)をレンダリングまたはキャプチャされた2Dピクセルから3Dポイントにマッピングし、固有かつ表現可能な雲の幾何学構造を見渡す。
本稿では, 点雲の3次元幾何学的構造を利用して, 移動したビジョン・ランゲージモデルの品質を向上させるための, 初となるトレーニングフリーアグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T12:30:07Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Lightweight integration of 3D features to improve 2D image segmentation [1.3799488979862027]
画像のセグメンテーションは3次元の基底構造を必要とせずに3次元の幾何学的情報から恩恵を受けることができることを示す。
提案手法は,多くの2次元セグメンテーションネットワークに適用でき,性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T08:22:55Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Joint Deep Multi-Graph Matching and 3D Geometry Learning from
Inhomogeneous 2D Image Collections [57.60094385551773]
非均質な画像コレクションから変形可能な3Dジオメトリモデルを学ぶためのトレーニング可能なフレームワークを提案する。
さらに,2次元画像で表現された物体の3次元形状も取得する。
論文 参考訳(メタデータ) (2021-03-31T17:25:36Z) - PanoNet3D: Combining Semantic and Geometric Understanding for LiDARPoint
Cloud Detection [40.907188672454986]
統合型マルチビューフレームワークを用いて,意味的特徴と幾何学的構造の両方を学ぶことを提案する。
意味的特徴と幾何学的特徴を融合することにより,この手法はすべてのカテゴリにおいて最先端のアプローチを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2020-12-17T06:58:34Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。