論文の概要: VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2107.13824v1
- Date: Thu, 29 Jul 2021 08:41:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 13:16:27.126750
- Title: VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation
- Title(参考訳): VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation
- Authors: Zeyu Hu, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin
Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai
- Abstract要約: Voxel-Mesh Network(VMNet)は、Voxelとメッシュ表現をベースとした、新しい3Dディープアーキテクチャである。
室内シーンの大規模セグメンテーションにおいて,VMNetは最先端のSparseConvNetとMinkowskiNetより優れていることを示す。
- 参考スコア(独自算出の注目度): 33.45650048515893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, sparse voxel-based methods have become the state-of-the-arts
for 3D semantic segmentation of indoor scenes, thanks to the powerful 3D CNNs.
Nevertheless, being oblivious to the underlying geometry, voxel-based methods
suffer from ambiguous features on spatially close objects and struggle with
handling complex and irregular geometries due to the lack of geodesic
information. In view of this, we present Voxel-Mesh Network (VMNet), a novel 3D
deep architecture that operates on the voxel and mesh representations
leveraging both the Euclidean and geodesic information. Intuitively, the
Euclidean information extracted from voxels can offer contextual cues
representing interactions between nearby objects, while the geodesic
information extracted from meshes can help separate objects that are spatially
close but have disconnected surfaces. To incorporate such information from the
two domains, we design an intra-domain attentive module for effective feature
aggregation and an inter-domain attentive module for adaptive feature fusion.
Experimental results validate the effectiveness of VMNet: specifically, on the
challenging ScanNet dataset for large-scale segmentation of indoor scenes, it
outperforms the state-of-the-art SparseConvNet and MinkowskiNet (74.6% vs 72.5%
and 73.6% in mIoU) with a simpler network structure (17M vs 30M and 38M
parameters). Code release: https://github.com/hzykent/VMNet
- Abstract(参考訳): 近年,sparse voxelベースの手法は,強力な3d cnnのおかげで,室内シーンの3d意味セグメンテーションの最先端技術となっている。
それにもかかわらず、ボクセルに基づく手法は、空間的に閉じた物体のあいまいな特徴に悩まされ、測地情報の欠如により複雑で不規則な測地を扱うのに苦労する。
このことから,voxel-mesh network (vmnet)は,ユークリッド情報と測地情報の両方を活用した,voxelおよびメッシュ表現上で動作する新しい3次元深層アーキテクチャである。
直感的には、ボクセルから抽出されたユークリッド情報は、近くの物体間の相互作用を表す文脈的手がかりを提供することができ、メッシュから抽出された測地線情報は、空間的に近接するが断線面を持つ別の物体を助けることができる。
この2つの領域からの情報を組み込むため、効果的な特徴集約のためのドメイン内注意モジュールと、適応的特徴融合のためのドメイン間注意モジュールを設計する。
特に、屋内シーンの大規模セグメンテーションのための挑戦的なScanNetデータセットでは、より単純なネットワーク構造(17M対30Mと38Mのパラメータ)で最先端のSparseConvNetとMinkowskiNet(74.6%対72.5%、73.6%はmIoU)を上回っている。
コードリリース: https://github.com/hzykent/VMNet
関連論文リスト
- LMSeg: A deep graph message-passing network for efficient and accurate semantic segmentation of large-scale 3D landscape meshes [3.482371041476053]
本稿では,大規模3次元ランドスケープメッシュ上でのセマンティックセマンティックセグメンテーションを効率的かつ正確に行うために,エンドツーエンドのディープグラフメッセージパッシングネットワークであるLMSegを提案する。
偏心グラフの階層的および局所的なプーリングは、効果的な幾何集約モジュールとともに、小さく不規則なメッシュオブジェクトの高速な推論と正確なセグメンテーションを可能にする。
論文 参考訳(メタデータ) (2024-07-05T07:55:06Z) - X-3D: Explicit 3D Structure Modeling for Point Cloud Recognition [73.0588783479853]
X-3Dは明示的な3D構造モデリング手法である。
入力された3D空間内の明示的な局所構造情報をキャプチャする。
現在の局所領域内のすべての近傍点に対して共有重みを持つ動的カーネルを生成する。
論文 参考訳(メタデータ) (2024-04-23T13:15:35Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - TC-Net: Triple Context Network for Automated Stroke Lesion Segmentation [0.5482532589225552]
本稿では,空間的コンテキスト情報を中心として,新たなネットワークである Triple Context Network (TC-Net) を提案する。
我々のネットワークはオープンデータセットATLASで評価され、最高スコアは0.594、ハウスドルフ距離は27.005mm、平均対称性表面距離は7.137mmである。
論文 参考訳(メタデータ) (2022-02-28T11:12:16Z) - LatticeNet: Fast Spatio-Temporal Point Cloud Segmentation Using
Permutohedral Lattices [27.048998326468688]
深層畳み込みニューラルネットワーク(CNN)は、画像のセグメンテーションに際し、優れた性能を示している。
本稿では,3次元セマンティックセグメンテーションの新たなアプローチであるLatticeNetを提案する。
本稿では,本手法が最先端性能を実現する複数のデータセット上での3次元セグメント化の結果について述べる。
論文 参考訳(メタデータ) (2021-08-09T10:17:27Z) - S3Net: 3D LiDAR Sparse Semantic Segmentation Network [1.330528227599978]
S3NetはLiDARポイントクラウドセマンティックセグメンテーションのための新しい畳み込みニューラルネットワークである。
sparse intra-channel attention module (sintraam)とsparse inter-channel attention module (sinteram)で構成されるエンコーダ-デコーダバックボーンを採用する。
論文 参考訳(メタデータ) (2021-03-15T22:15:24Z) - H3D: Benchmark on Semantic Segmentation of High-Resolution 3D Point
Clouds and textured Meshes from UAV LiDAR and Multi-View-Stereo [4.263987603222371]
本稿では,3つの方法でユニークな3次元データセットを提案する。
ヘシグハイム(ドイツ語: Hessigheim, H3D)は、ドイツの都市。
片手で3次元データ分析の分野での研究を促進するとともに、新しいアプローチの評価とランク付けを目的としている。
論文 参考訳(メタデータ) (2021-02-10T09:33:48Z) - Learning Geometry-Disentangled Representation for Complementary
Understanding of 3D Object Point Cloud [50.56461318879761]
3次元画像処理のためのGDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetは、点雲を3Dオブジェクトの輪郭と平らな部分に切り離し、それぞれ鋭い変化成分と穏やかな変化成分で表される。
3Dオブジェクトの分類とセグメンテーションベンチマークの実験は、GDANetがより少ないパラメータで最先端の処理を実現していることを示している。
論文 参考訳(メタデータ) (2020-12-20T13:35:00Z) - Spatial Information Guided Convolution for Real-Time RGBD Semantic
Segmentation [79.78416804260668]
本稿では,効率的なRGB機能と3次元空間情報統合を実現するための空間情報ガイドコンボリューション(S-Conv)を提案する。
S-Convは、3次元空間情報によって導かれる畳み込みカーネルのサンプリングオフセットを推測する能力を有する。
我々はさらにS-Convを空間情報ガイド畳み込みネットワーク(SGNet)と呼ばれるセグメンテーションネットワークに組み込みます。
論文 参考訳(メタデータ) (2020-04-09T13:38:05Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。