論文の概要: MarS3D: A Plug-and-Play Motion-Aware Model for Semantic Segmentation on
Multi-Scan 3D Point Clouds
- arxiv url: http://arxiv.org/abs/2307.09316v1
- Date: Tue, 18 Jul 2023 14:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 14:14:48.196626
- Title: MarS3D: A Plug-and-Play Motion-Aware Model for Semantic Segmentation on
Multi-Scan 3D Point Clouds
- Title(参考訳): mars3d:マルチスキャン3dポイントクラウドにおける意味セグメンテーションのためのプラグアンドプレイモーションアウェアモデル
- Authors: Jiahui Liu, Chirui Chang, Jianhui Liu, Xiaoyang Wu, Lan Ma, Xiaojuan
Qi
- Abstract要約: マルチスキャン大規模クラウド上の3次元セマンティックセマンティックセマンティクスは、自律システムにおいて重要な役割を果たす。
マルチスキャン3Dポイントクラウド上でのセマンティックセグメンテーションのためのプラグイン・アンド・プレイ・モーション・アウェア・モジュールであるMarS3Dを提案する。
- 参考スコア(独自算出の注目度): 25.74458809877035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D semantic segmentation on multi-scan large-scale point clouds plays an
important role in autonomous systems. Unlike the single-scan-based semantic
segmentation task, this task requires distinguishing the motion states of
points in addition to their semantic categories. However, methods designed for
single-scan-based segmentation tasks perform poorly on the multi-scan task due
to the lacking of an effective way to integrate temporal information. We
propose MarS3D, a plug-and-play motion-aware module for semantic segmentation
on multi-scan 3D point clouds. This module can be flexibly combined with
single-scan models to allow them to have multi-scan perception abilities. The
model encompasses two key designs: the Cross-Frame Feature Embedding module for
enriching representation learning and the Motion-Aware Feature Learning module
for enhancing motion awareness. Extensive experiments show that MarS3D can
improve the performance of the baseline model by a large margin. The code is
available at https://github.com/CVMI-Lab/MarS3D.
- Abstract(参考訳): マルチスキャン大規模クラウド上の3次元セマンティックセグメンテーションは、自律システムにおいて重要な役割を果たす。
単一スキャンに基づくセマンティックセグメンテーションタスクとは異なり、このタスクは意味圏に加えて点の運動状態を区別する必要がある。
しかし、時間情報を統合する効果的な方法が欠如しているため、単一スキャンベースセグメンテーションタスク用に設計された手法はマルチスキャンタスクでは不十分である。
マルチスキャン3dポイントクラウド上で意味セグメンテーションを行うための,プラグインアンドプレイモーションアウェアモジュールであるmars3dを提案する。
このモジュールは、柔軟にシングルスキャンモデルと組み合わせて、マルチスキャン知覚能力を持つことができる。
このモデルは、表現学習を豊かにするクロスフレーム特徴埋め込みモジュールと、動き認識を強化するモーションアウェア特徴学習モジュールの2つの重要な設計を含んでいる。
広範な実験により、mars3dはベースラインモデルの性能を大きなマージンで改善できることが示されている。
コードはhttps://github.com/CVMI-Lab/MarS3Dで公開されている。
関連論文リスト
- DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance
Fields [73.97131748433212]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Spatiotemporal Modeling Encounters 3D Medical Image Analysis:
Slice-Shift UNet with Multi-View Fusion [0.0]
本稿では,2次元CNNにおける3次元特徴をエンコードする2次元モデルSlice SHift UNetを提案する。
より正確にマルチビュー機能は、ボリュームの3次元平面に沿って2次元の畳み込みを実行することで協調的に学習される。
提案手法の有効性は,多モード腹部多臓器軸 (AMOS) と Cranial Vault (BTCV) データセットを越えたマルチアトラスラベリング (Multi-Atlas Labeling Beyond the Cranial Vault) で検証した。
論文 参考訳(メタデータ) (2023-07-24T14:53:23Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - LWSIS: LiDAR-guided Weakly Supervised Instance Segmentation for
Autonomous Driving [34.119642131912485]
より巧妙なフレームワークであるLiDAR誘導弱監視インスタンス(LWSIS)を提示する。
LWSISは市販の3Dデータ、すなわちポイントクラウドと3Dボックスを2Dイメージインスタンスセグメンテーションモデルをトレーニングするための自然な弱い監督手段として使用している。
我々のLWSISは、訓練中のマルチモーダルデータの補完情報を利用するだけでなく、密集した2Dマスクのコストを大幅に削減します。
論文 参考訳(メタデータ) (2022-12-07T08:08:01Z) - PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained
Image-Language Models [56.324516906160234]
一般化可能な3D部分分割は重要だが、ビジョンとロボティクスでは難しい。
本稿では,事前学習した画像言語モデルGLIPを利用して,3次元点雲の低ショット部分分割法を提案する。
我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。
論文 参考訳(メタデータ) (2022-12-03T06:59:01Z) - Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic
Segmentation [3.5939555573102853]
近年の3次元セマンティックセグメンテーションの研究は、各モータリティを専用ネットワークで処理することで、画像と点雲の相乗効果を活用することを提案する。
任意の位置で撮影された画像から特徴をマージするために,3Dポイントの視聴条件を利用したエンドツーエンドのトレーニング可能な多視点アグリゲーションモデルを提案する。
本手法は,標準的な2Dネットワークと3Dネットワークを組み合わせることで,カラー化された点群とハイブリッドな2D/3Dネットワーク上での3Dモデルの性能を向上する。
論文 参考訳(メタデータ) (2022-04-15T17:10:48Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - Learning Feature Aggregation for Deep 3D Morphable Models [57.1266963015401]
階層レベルで機能集約を向上するためのマッピング行列を学習するための注意に基づくモジュールを提案する。
実験の結果,マッピング行列のエンドツーエンドトレーニングにより,様々な3次元形状データセットの最先端結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-05-05T16:41:00Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。