論文の概要: 2D-3D Interlaced Transformer for Point Cloud Segmentation with
Scene-Level Supervision
- arxiv url: http://arxiv.org/abs/2310.12817v2
- Date: Mon, 22 Jan 2024 09:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 20:27:55.749373
- Title: 2D-3D Interlaced Transformer for Point Cloud Segmentation with
Scene-Level Supervision
- Title(参考訳): Scene-Level Supervision を用いた点雲分割用2D-3Dインターレーストランス
- Authors: Cheng-Kun Yang, Min-Hung Chen, Yung-Yu Chuang, Yen-Yu Lin
- Abstract要約: 本稿では,2つのエンコーダと1つのデコーダを備えた変圧器モデルを提案する。
デコーダは2D-3Dクロスアテンションを実装し、暗黙の2Dおよび3D特徴融合を実行する。
実験により、既存の弱教師付きポイントクラウドセグメンテーション法に対して好適に動作することが示された。
- 参考スコア(独自算出の注目度): 36.282611420496416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a Multimodal Interlaced Transformer (MIT) that jointly considers
2D and 3D data for weakly supervised point cloud segmentation. Research studies
have shown that 2D and 3D features are complementary for point cloud
segmentation. However, existing methods require extra 2D annotations to achieve
2D-3D information fusion. Considering the high annotation cost of point clouds,
effective 2D and 3D feature fusion based on weakly supervised learning is in
great demand. To this end, we propose a transformer model with two encoders and
one decoder for weakly supervised point cloud segmentation using only
scene-level class tags. Specifically, the two encoders compute the
self-attended features for 3D point clouds and 2D multi-view images,
respectively. The decoder implements interlaced 2D-3D cross-attention and
carries out implicit 2D and 3D feature fusion. We alternately switch the roles
of queries and key-value pairs in the decoder layers. It turns out that the 2D
and 3D features are iteratively enriched by each other. Experiments show that
it performs favorably against existing weakly supervised point cloud
segmentation methods by a large margin on the S3DIS and ScanNet benchmarks. The
project page will be available at https://jimmy15923.github.io/mit_web/.
- Abstract(参考訳): 弱制御点雲分割のための2次元データと3次元データを共同で検討するマルチモーダルインターレース変換器(MIT)を提案する。
研究によると、2Dと3Dの機能は点雲のセグメンテーションに相補的である。
しかし既存の手法では2D-3D情報融合を実現するために追加の2Dアノテーションが必要である。
点雲のアノテーションコストが高いことを考えると、弱い教師付き学習に基づく効果的な2次元および3次元特徴融合が要求される。
そこで本研究では,シーンレベルのクラスタグのみを用いた2つのエンコーダと1つのデコーダを用いたトランスフォーマモデルを提案する。
具体的には、2つのエンコーダはそれぞれ3dポイントクラウドと2dマルチビューイメージのセルフアタッチ特徴を計算する。
デコーダは、インターレースされた2D-3Dクロスアテンションを実装し、暗黙の2Dおよび3D特徴融合を実行する。
デコーダ層におけるクエリとキー-値ペアの役割を交互に切り替える。
2Dと3Dの機能は互いに反復的に豊かになっていることが判明した。
実験の結果、S3DISとScanNetのベンチマークにおいて、既存の弱制御ポイントクラウドセグメンテーション手法に対して、大きなマージンで好適に動作することが示された。
プロジェクトページはhttps://jimmy15923.github.io/mit_web/で入手できる。
関連論文リスト
- ODIN: A Single Model for 2D and 3D Segmentation [34.612953668151036]
ODINは、2D RGBイメージと3Dポイントクラウドのセグメンテーションとラベル付けを行うモデルである。
ScanNet200、Matterport3D、AI2THOR 3Dセグメンテーションベンチマーク上での最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-04T18:59:25Z) - CMDFusion: Bidirectional Fusion Network with Cross-modality Knowledge
Distillation for LIDAR Semantic Segmentation [44.44327357717908]
2D RGB画像と3D LIDAR点雲は、自動運転車の知覚システムに補完的な知識を提供する。
LIDARセマンティックセグメンテーションタスクのために、いくつかの2Dおよび3D融合法が検討されているが、それらは異なる問題に悩まされている。
本稿では,クロスモーダル知識蒸留(CMDFusion)を用いた双方向核融合ネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T04:24:12Z) - Prototype Adaption and Projection for Few- and Zero-shot 3D Point Cloud
Semantic Segmentation [30.18333233940194]
本研究は, 少数ショットとゼロショットの3Dポイントクラウドセマンティックセマンティックセグメンテーションの課題に対処する。
提案手法は,S3DISベンチマークとScanNetベンチマークの2方向1ショット設定により,最先端のアルゴリズムを約7.90%,14.82%上回る。
論文 参考訳(メタデータ) (2023-05-23T17:58:05Z) - EPCL: Frozen CLIP Transformer is An Efficient Point Cloud Encoder [60.52613206271329]
本稿では,冷凍CLIP変換器を用いて高品質のクラウドモデルをトレーニングするための textbfEfficient textbfPoint textbfCloud textbfLearning (EPCL) を提案する。
我々のEPCLは、2D-3Dデータをペア化せずに画像の特徴と点雲の特徴を意味的に整合させることで、2Dと3Dのモダリティを接続する。
論文 参考訳(メタデータ) (2022-12-08T06:27:11Z) - Sparse2Dense: Learning to Densify 3D Features for 3D Object Detection [85.08249413137558]
LiDARが生成する点雲は、最先端の3Dオブジェクト検出器の主要な情報源である。
小さい、遠く、不完全な点の少ない物体は、しばしば検出するのが困難である。
Sparse2Denseは、潜在空間における点雲の密度化を学習することで、3D検出性能を効率的に向上する新しいフレームワークである。
論文 参考訳(メタデータ) (2022-11-23T16:01:06Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Unsupervised Learning of Fine Structure Generation for 3D Point Clouds
by 2D Projection Matching [66.98712589559028]
微細な構造を持つ3次元点雲生成のための教師なしアプローチを提案する。
本手法は2次元シルエット画像から異なる解像度で微細な3次元構造を復元することができる。
論文 参考訳(メタデータ) (2021-08-08T22:15:31Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。