論文の概要: Towards Semi-supervised Dual-modal Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2409.13325v1
- Date: Fri, 20 Sep 2024 08:34:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 07:40:00.751651
- Title: Towards Semi-supervised Dual-modal Semantic Segmentation
- Title(参考訳): 半教師付きデュアルモーダルセマンティックセマンティックセグメンテーションに向けて
- Authors: Qiulei Dong, Jianan Li, Shuang Deng,
- Abstract要約: PD-Netと呼ばれる半教師付きデュアルモーダルセマンティックセマンティックセマンティクスタスクを扱う並列デュアルストリームネットワークを提案する。
提案したPD-Netは、2つの並列ストリーム(元のストリームと擬似ラベル予測ストリームと呼ばれる)から構成される。
擬似ラベル予測ストリームは、未ラベルの点雲とその対応する画像の擬似ラベルを予測する。
各ストリームにおいて、複数のデュアルモーダル融合モジュールが二重モーダル特徴を融合するために探索される。
- 参考スコア(独自算出の注目度): 22.660867735931774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of 3D and 2D data acquisition techniques, it has become easy to obtain point clouds and images of scenes simultaneously, which further facilitates dual-modal semantic segmentation. Most existing methods for simultaneously segmenting point clouds and images rely heavily on the quantity and quality of the labeled training data. However, massive point-wise and pixel-wise labeling procedures are time-consuming and labor-intensive. To address this issue, we propose a parallel dual-stream network to handle the semi-supervised dual-modal semantic segmentation task, called PD-Net, by jointly utilizing a small number of labeled point clouds, a large number of unlabeled point clouds, and unlabeled images. The proposed PD-Net consists of two parallel streams (called original stream and pseudo-label prediction stream). The pseudo-label prediction stream predicts the pseudo labels of unlabeled point clouds and their corresponding images. Then, the unlabeled data is sent to the original stream for self-training. Each stream contains two encoder-decoder branches for 3D and 2D data respectively. In each stream, multiple dual-modal fusion modules are explored for fusing the dual-modal features. In addition, a pseudo-label optimization module is explored to optimize the pseudo labels output by the pseudo-label prediction stream. Experimental results on two public datasets demonstrate that the proposed PD-Net not only outperforms the comparative semi-supervised methods but also achieves competitive performances with some fully-supervised methods in most cases.
- Abstract(参考訳): 3Dおよび2Dデータ取得技術の開発により、シーンの点雲と画像の同時取得が容易になり、デュアルモーダルなセマンティックセマンティックセグメンテーションがさらに容易になった。
ポイントクラウドとイメージを同時にセグメンテーションする既存の方法のほとんどは、ラベル付きトレーニングデータの量と品質に大きく依存している。
しかし、大量のポイントワイドおよびピクセルワイドラベリング手順は時間がかかり、労働集約的である。
そこで本研究では,少数のラベル付き点群,多数のラベル付き点群,およびラベル付き画像を用いて,PD-Netと呼ばれる半教師付きデュアルモーダルセマンティックセマンティックセマンティックセマンティクスタスクを処理する並列デュアルストリームネットワークを提案する。
提案したPD-Netは、2つの並列ストリーム(元のストリームと擬似ラベル予測ストリームと呼ばれる)で構成されている。
擬似ラベル予測ストリームは、未ラベルの点雲とその対応する画像の擬似ラベルを予測する。
そして、ラベルなしデータを元のストリームに送信して自己学習を行う。
各ストリームは、それぞれ3Dデータと2Dデータのための2つのエンコーダデコーダブランチを含む。
各ストリームにおいて、複数のデュアルモーダル融合モジュールが二重モーダル特徴を融合するために探索される。
さらに、擬似ラベル予測ストリームによって出力される擬似ラベルを最適化するために擬似ラベル最適化モジュールを探索した。
2つの公開データセットの実験結果から、提案手法は、比較半教師付き手法よりも優れているだけでなく、ほとんどの場合、完全教師付き手法で競合性能を達成できることが示された。
関連論文リスト
- Contrastive masked auto-encoders based self-supervised hashing for 2D image and 3D point cloud cross-modal retrieval [5.965791109321719]
2D画像と3Dポイントクラウドデータの相互ハッシュ化は、現実世界の検索システムにおいてますます懸念される。
画像とポイントクラウドデータ間の検索のために,コントラッシブマスク付きオートエンコーダを用いた自己教師型ハッシュ(CMAH)を提案する。
論文 参考訳(メタデータ) (2024-08-11T07:03:21Z) - Beyond the Label Itself: Latent Labels Enhance Semi-supervised Point
Cloud Panoptic Segmentation [46.01433705072047]
表示ラベルの裏側には,LiDARと画像データに埋め込まれた2種類の潜伏ラベルが存在する。
我々は、より信頼性の高いトレーニング用サンプルを拡張できる新しい拡張 Cylinder-Mix を提案する。
また、インスタンスの位置と規模に関する情報を学習し、融合するためのインスタンス位置スケール学習(IPSL)モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-13T15:56:24Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - Image Understands Point Cloud: Weakly Supervised 3D Semantic
Segmentation via Association Learning [59.64695628433855]
ラベルのない画像から補完的な情報を取り入れた3次元セグメンテーションのための新しいクロスモダリティ弱教師付き手法を提案する。
基本的に、ラベルの小さな部分のパワーを最大化するために、アクティブなラベリング戦略を備えたデュアルブランチネットワークを設計する。
提案手法は,1%未満のアクティブなアノテーションで,最先端の完全教師付き競合よりも優れていた。
論文 参考訳(メタデータ) (2022-09-16T07:59:04Z) - 2DPASS: 2D Priors Assisted Semantic Segmentation on LiDAR Point Clouds [18.321397768570154]
本稿では, 2DPASS (2D Priors Assisted Semantic) を提案する。
2DPASSは、マルチモーダルデータからよりリッチなセマンティクスと構造情報を取得し、それをオンラインで3Dネットワークに蒸留する。
2つの大規模ベンチマークで最先端を達成している。
論文 参考訳(メタデータ) (2022-07-10T06:52:09Z) - Unsupervised Representation Learning for 3D Point Cloud Data [66.92077180228634]
我々は、教師なしのポイントクラウド学習に対して、シンプルで効果的なアプローチを提案する。
特に、原点雲の優れたコントラストバージョンを生成する非常に有用な変換を同定する。
本研究では,3次元オブジェクト分類,形状部分分割,シーン分割の3つの下流タスクについて実験を行った。
論文 参考訳(メタデータ) (2021-10-13T10:52:45Z) - Dense Supervision Propagation for Weakly Supervised Semantic Segmentation on 3D Point Clouds [59.63231842439687]
意味点クラウドセグメンテーションネットワークをトレーニングする。
同様の特徴を伝達し、2つのサンプルにまたがる勾配を再現するクロスサンプル機能再配置モジュールを提案する。
ラベルの10%と1%しか持たない弱教師付き手法では、完全教師付き手法と互換性のある結果が得られる。
論文 参考訳(メタデータ) (2021-07-23T14:34:57Z) - FPS-Net: A Convolutional Fusion Network for Large-Scale LiDAR Point
Cloud Segmentation [30.736361776703568]
LiDARポイントクラウドに基づくシーン理解は、自動運転車が安全に運転するのに不可欠なタスクです。
既存のほとんどのメソッドは、情報容量を増やすために、画像チャネルとして異なるポイント属性/モダリティを積み重ねる。
fps-netは,最適なポイントクラウドセグメンテーションのために,投影画像チャネル間の一意性と不一致を生かす畳み込み型融合ネットワークである。
論文 参考訳(メタデータ) (2021-03-01T04:08:28Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Few-shot 3D Point Cloud Semantic Segmentation [138.80825169240302]
本稿では,新しい注意型マルチプロトタイプトランスダクティブ・ショットポイント・クラウドセマンティックセマンティック・セマンティクス法を提案する。
提案手法は,雲のセマンティックセマンティックセグメンテーション設定の違いによるベースラインに比べて,顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2020-06-22T08:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。