Fugu-MT 論文翻訳(概要): Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation

論文の概要: Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation

arxiv url: http://arxiv.org/abs/2008.01550v1
Date: Tue, 4 Aug 2020 13:56:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-03 00:42:31.644419
Title: Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation
Title（参考訳）: cylinder3d: 運転-シーンのlidarセマンティクスセグメンテーションのための効果的な3dフレームワーク
Authors: Hui Zhou, Xinge Zhu, Xiao Song, Yuexin Ma, Zhe Wang, Hongsheng Li, Dahua Lin
Abstract要約: 大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。 3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
参考スコア（独自算出の注目度）: 87.54570024320354
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: State-of-the-art methods for large-scale driving-scene LiDAR semantic segmentation often project and process the point clouds in the 2D space. The projection methods includes spherical projection, bird-eye view projection, etc. Although this process makes the point cloud suitable for the 2D CNN-based networks, it inevitably alters and abandons the 3D topology and geometric relations. A straightforward solution to tackle the issue of 3D-to-2D projection is to keep the 3D representation and process the points in the 3D space. In this work, we first perform an in-depth analysis for different representations and backbones in 2D and 3D spaces, and reveal the effectiveness of 3D representations and networks on LiDAR segmentation. Then, we develop a 3D cylinder partition and a 3D cylinder convolution based framework, termed as Cylinder3D, which exploits the 3D topology relations and structures of driving-scene point clouds. Moreover, a dimension-decomposition based context modeling module is introduced to explore the high-rank context information in point clouds in a progressive manner. We evaluate the proposed model on a large-scale driving-scene dataset, i.e. SematicKITTI. Our method achieves state-of-the-art performance and outperforms existing methods by 6% in terms of mIoU.
Abstract（参考訳）: 大規模運転-シーンlidarセマンティクスセグメンテーションのための最先端手法は、しばしば2次元空間内の点雲を投影して処理する。投影方法は球面投影、鳥眼視投影などを含む。このプロセスは2d cnnベースのネットワークに適しているが、3dトポロジーと幾何学的関係を必然的に変更し放棄する。 3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。本研究では,まず2次元空間と3次元空間の異なる表現とバックボーンの詳細な解析を行い,LiDARセグメンテーションにおける3次元表現とネットワークの有効性を明らかにする。次に,3次元シリンダ分割と3次元シリンダ畳み込みに基づく枠組みであるシリンダ3dを開発した。さらに, 次元分解型コンテキストモデリングモジュールを導入し, 点群内の高次コンテキスト情報を漸進的に探索する。本研究では,大規模運転シーンデータセット,すなわちSematicKITTIを用いて提案モデルを評価する。提案手法は最先端性能を実現し,mIoUで既存手法を6%上回っている。

関連論文リスト

DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation [51.43837087865105]
大規模な画像データセットに基づいてトレーニングされた視覚基礎モデル(VFM)は、非常に高度な2D視覚認識を備えた高品質な機能を提供する。 3D画像と3Dポイントクラウドデータセットの共通利用にもかかわらず、彼らの3Dビジョンのポテンシャルは依然としてほとんど未解決のままである。 2Dファンデーションモデルの特徴を抽出し,それを3Dに投影し,最終的に3Dポイントクラウドセグメンテーションモデルに注入する,シンプルで効果的なアプローチであるDITRを導入する。
論文参考訳（メタデータ） (2025-03-24T17:59:11Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。 textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。 SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文参考訳（メタデータ） (2024-03-02T08:18:57Z)
MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文参考訳（メタデータ） (2022-08-18T00:48:15Z)
Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-12T06:25:11Z)
AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。 2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文参考訳（メタデータ） (2021-08-25T08:50:06Z)
Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文参考訳（メタデータ） (2020-11-29T12:56:19Z)
Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation [81.02742110604161]
大規模運転シーンのLiDARセグメンテーションのための最先端の手法は、しばしば点雲を2次元空間に投影し、2D畳み込みによって処理する。そこで我々は,3次元幾何学的パタンを探索するために,円筒分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。提案手法はセマンティックKITTIのリーダーボードにおいて第1位を獲得し,既存のnuScenesの手法を約4%のマージンで上回っている。
論文参考訳（メタデータ） (2020-11-19T18:53:11Z)
Pointwise Attention-Based Atrous Convolutional Neural Networks [15.499267533387039]
多数の点を効率的に扱うために,注目度に基づくアトラス畳み込みニューラルネットワークアーキテクチャを提案する。提案モデルは,3次元セマンティックセグメンテーションタスクにおいて,最も重要な2つの3Dポイントクラウドデータセット上で評価されている。精度の面では最先端モデルと比較して妥当な性能を達成し、パラメータの数ははるかに少ない。
論文参考訳（メタデータ） (2019-12-27T13:12:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。