論文の概要: DSPoint: Dual-scale Point Cloud Recognition with High-frequency Fusion
- arxiv url: http://arxiv.org/abs/2111.10332v1
- Date: Fri, 19 Nov 2021 17:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 14:30:53.027733
- Title: DSPoint: Dual-scale Point Cloud Recognition with High-frequency Fusion
- Title(参考訳): DSPoint:高周波核融合によるデュアルスケールポイントクラウド認識
- Authors: Renrui Zhang, Ziyao Zeng, Ziyu Guo, Xinben Gao, Kexue Fu, Jianbo Shi
- Abstract要約: 高周波核融合(DSPoint)を用いたデュアルスケール点雲認識を提案する。
ボクセルに畳み込みを施すという従来の設計を逆転させ、点に注意を向ける。
広く採用されているModelNet40,ShapeNet,S3DISの実験と改善により,DSPointの最先端性能が実証された。
- 参考スコア(独自算出の注目度): 17.797795508707864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point cloud processing is a challenging task due to its sparsity and
irregularity. Prior works introduce delicate designs on either local feature
aggregator or global geometric architecture, but few combine both advantages.
We propose Dual-Scale Point Cloud Recognition with High-frequency Fusion
(DSPoint) to extract local-global features by concurrently operating on voxels
and points. We reverse the conventional design of applying convolution on
voxels and attention to points. Specifically, we disentangle point features
through channel dimension for dual-scale processing: one by point-wise
convolution for fine-grained geometry parsing, the other by voxel-wise global
attention for long-range structural exploration. We design a co-attention
fusion module for feature alignment to blend local-global modalities, which
conducts inter-scale cross-modality interaction by communicating high-frequency
coordinates information. Experiments and ablations on widely-adopted
ModelNet40, ShapeNet, and S3DIS demonstrate the state-of-the-art performance of
our DSPoint.
- Abstract(参考訳): ポイントクラウド処理は、その幅と不規則性のために難しい課題である。
以前の作品では、局所的特徴アグリゲータと大域的幾何学的アーキテクチャの両方に繊細なデザインを取り入れているが、両方の利点を組み合わせるものは少ない。
本研究では,voxel と point を同時に操作することで局所的グローバル特徴を抽出するために,高頻度融合(dspoint)を用いたデュアルスケールポイントクラウド認識を提案する。
ボクセルに畳み込みを適用し、点に注意を向ける従来の設計を逆転する。
具体的には、細粒度解析のためのポイントワイド畳み込みと、長距離構造探査のためのボクセルワイドグローバルアテンションの2つの特徴をチャネル次元で切り離す。
我々は,高頻度座標情報を伝達することにより,大規模な相互モーダル間相互作用を行う特徴アライメントのためのコアテンション融合モジュールを設計する。
広く採用されているModelNet40,ShapeNet,S3DISの実験と改善により,DSPointの最先端性能が実証された。
関連論文リスト
- PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Twin Deformable Point Convolutions for Point Cloud Semantic Segmentation in Remote Sensing Scenes [12.506628755166814]
双変形点畳み込み(TDConvs)と呼ばれる新しい畳み込み作用素を提案する。
これらの演算子は、緯度-経度面と高度方向の変形可能なサンプリングポイントを学習することで適応的な特徴学習を実現することを目的としている。
既存のベンチマークの実験では、TDConvsが最高のセグメンテーション性能を達成していると結論付けています。
論文 参考訳(メタデータ) (2024-05-30T06:31:03Z) - Point Cloud Compression with Implicit Neural Representations: A Unified Framework [54.119415852585306]
我々は幾何学と属性の両方を扱える先駆的なクラウド圧縮フレームワークを提案する。
本フレームワークでは,2つの座標ベースニューラルネットワークを用いて,voxelized point cloudを暗黙的に表現する。
本手法は,既存の学習手法と比較して,高い普遍性を示す。
論文 参考訳(メタデータ) (2024-05-19T09:19:40Z) - Mesh Denoising Transformer [104.5404564075393]
Mesh Denoisingは、入力メッシュからノイズを取り除き、特徴構造を保存することを目的としている。
SurfaceFormerはTransformerベースのメッシュDenoisingフレームワークのパイオニアだ。
局所曲面記述子(Local Surface Descriptor)として知られる新しい表現は、局所幾何学的複雑さをキャプチャする。
Denoising Transformerモジュールは、マルチモーダル情報を受信し、効率的なグローバル機能アグリゲーションを実現する。
論文 参考訳(メタデータ) (2024-05-10T15:27:43Z) - Variational Relational Point Completion Network for Robust 3D
Classification [59.80993960827833]
可変点雲補完法は、局所的な詳細を欠くため、大域的な形状の骨格を生成する傾向がある。
本稿では2つの魅力的な特性を持つ変分フレームワークであるポイントコンプリートネットワーク(VRCNet)を提案する。
VRCNetは、現実世界のポイントクラウドスキャンにおいて、非常に一般化性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-04-18T17:03:20Z) - APPT : Asymmetric Parallel Point Transformer for 3D Point Cloud
Understanding [20.87092793669536]
トランスフォーマーベースのネットワークは、3Dポイントクラウド理解において素晴らしいパフォーマンスを達成した。
これらの問題に対処するために,非対称並列点変換器(APPT)を提案する。
APPTは、ローカル詳細機能に集中しながら、ネットワーク全体を通して機能を取り込むことができる。
論文 参考訳(メタデータ) (2023-03-31T06:11:02Z) - LATFormer: Locality-Aware Point-View Fusion Transformer for 3D Shape
Recognition [38.540048855119004]
そこで我々は,3次元形状検索と分類のためのLATFormer(Locality-Aware Point-View Fusion Transformer)を提案する。
LATFormerの中核となるコンポーネントはLocality-Aware Fusion (LAF) という名前のモジュールで、2つのモードにまたがる関連領域の局所的特徴を統合する。
LATFormerでは,LAFモジュールを用いて双方向および階層的に2つのモードのマルチスケール機能を融合し,より情報的な特徴を得る。
論文 参考訳(メタデータ) (2021-09-03T03:23:27Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z) - 3D Object Detection with Pointformer [29.935891419574602]
本稿では,3dポイントクラウドのためのトランスフォーマーバックボーンであるpointformerを提案する。
ローカルトランスフォーマーモジュールは、オブジェクトレベルでコンテキスト依存の領域特徴を学習するローカル領域のポイント間の相互作用をモデル化するために使用される。
Global Transformerは、シーンレベルでコンテキスト対応の表現を学ぶように設計されている。
論文 参考訳(メタデータ) (2020-12-21T15:12:54Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。