論文の概要: Image Understands Point Cloud: Weakly Supervised 3D Semantic
Segmentation via Association Learning
- arxiv url: http://arxiv.org/abs/2209.07774v1
- Date: Fri, 16 Sep 2022 07:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 12:41:49.510104
- Title: Image Understands Point Cloud: Weakly Supervised 3D Semantic
Segmentation via Association Learning
- Title(参考訳): Image Understands Point Cloud:アソシエーション学習による3Dセマンティックセマンティックセグメンテーションの監督
- Authors: Tianfang Sun, Zhizhong Zhang, Xin Tan, Yanyun Qu, Yuan Xie, Lizhuang
Ma
- Abstract要約: ラベルのない画像から補完的な情報を取り入れた3次元セグメンテーションのための新しいクロスモダリティ弱教師付き手法を提案する。
基本的に、ラベルの小さな部分のパワーを最大化するために、アクティブなラベリング戦略を備えたデュアルブランチネットワークを設計する。
提案手法は,1%未満のアクティブなアノテーションで,最先端の完全教師付き競合よりも優れていた。
- 参考スコア(独自算出の注目度): 59.64695628433855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised point cloud semantic segmentation methods that require 1\%
or fewer labels, hoping to realize almost the same performance as fully
supervised approaches, which recently, have attracted extensive research
attention. A typical solution in this framework is to use self-training or
pseudo labeling to mine the supervision from the point cloud itself, but ignore
the critical information from images. In fact, cameras widely exist in LiDAR
scenarios and this complementary information seems to be greatly important for
3D applications. In this paper, we propose a novel cross-modality weakly
supervised method for 3D segmentation, incorporating complementary information
from unlabeled images. Basically, we design a dual-branch network equipped with
an active labeling strategy, to maximize the power of tiny parts of labels and
directly realize 2D-to-3D knowledge transfer. Afterwards, we establish a
cross-modal self-training framework in an Expectation-Maximum (EM) perspective,
which iterates between pseudo labels estimation and parameters updating. In the
M-Step, we propose a cross-modal association learning to mine complementary
supervision from images by reinforcing the cycle-consistency between 3D points
and 2D superpixels. In the E-step, a pseudo label self-rectification mechanism
is derived to filter noise labels thus providing more accurate labels for the
networks to get fully trained. The extensive experimental results demonstrate
that our method even outperforms the state-of-the-art fully supervised
competitors with less than 1\% actively selected annotations.
- Abstract(参考訳): 弱教師付きポイントクラウドセマンティックセマンティックセマンティクス手法はラベルが1\%未満必要であり、完全に教師付きアプローチとほぼ同じ性能を期待している。
このフレームワークの典型的な解決策は、自己学習または擬似ラベルを使って、ポイントクラウド自体から監督をマイニングするが、画像から重要な情報を無視する。
実際、LiDARのシナリオにはカメラが広く存在し、この補完的な情報は3Dアプリケーションにとって非常に重要であると考えられる。
本稿では,非ラベル画像からの補完情報を組み込んだ3次元セグメンテーションのためのクロスモーダル弱教師方式を提案する。
基本的に、アクティブなラベル戦略を備えたデュアルブランチネットワークを設計し、ラベルの小さな部分のパワーを最大化し、2dから3dへの知識転送を直接実現します。
その後、疑似ラベル推定とパラメータ更新を反復する、期待最大(EM)視点で、クロスモーダルな自己学習フレームワークを確立する。
M-Stepでは、3Dポイントと2Dスーパーピクセル間のサイクル一貫性を強化し、画像から補完的な監督をマイニングするためのクロスモーダルアソシエーション学習を提案する。
E-stepでは、擬似ラベル自己修正機構がノイズラベルをフィルタすることで、ネットワークが完全にトレーニングされるためのより正確なラベルを提供する。
実験結果から,本手法は,1\%未満のアクティブなアノテーションで,最先端の完全教師付き競合よりも優れていることが示された。
関連論文リスト
- Beyond the Label Itself: Latent Labels Enhance Semi-supervised Point
Cloud Panoptic Segmentation [46.01433705072047]
表示ラベルの裏側には,LiDARと画像データに埋め込まれた2種類の潜伏ラベルが存在する。
我々は、より信頼性の高いトレーニング用サンプルを拡張できる新しい拡張 Cylinder-Mix を提案する。
また、インスタンスの位置と規模に関する情報を学習し、融合するためのインスタンス位置スケール学習(IPSL)モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-13T15:56:24Z) - Cross-modal and Cross-domain Knowledge Transfer for Label-free 3D
Segmentation [23.110443633049382]
本稿では,画像と点雲の関係を網羅的に探究することで,クロスモーダル・クロスドメイン適応に挑戦する新しい手法を提案する。
KITTI360 と GTA5 の知識を用いて,セマンティック KITTI 上の3次元クラウドセマンティックセマンティックセマンティックスセグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-19T14:29:57Z) - Towards Label-free Scene Understanding by Vision Foundation Models [87.13117617056004]
ネットワークがラベル付きデータなしで2Dおよび3D世界を理解できるようにするためのビジョン基盤モデルの可能性について検討する。
本稿では,CLIPとSAMの強度を利用して2次元ネットワークと3次元ネットワークを同時に監視するクロスモダリティ・ノイズ・スーパービジョン(CNS)手法を提案する。
我々の2Dネットワークと3Dネットワークは、ScanNet上で28.4%と33.5%のmIoUでラベルなしセマンティックセグメンテーションを実現し、それぞれ4.7%と7.9%を改善した。
論文 参考訳(メタデータ) (2023-06-06T17:57:49Z) - You Only Need One Thing One Click: Self-Training for Weakly Supervised
3D Scene Understanding [107.06117227661204]
私たちはOne Thing One Click''を提案する。つまり、アノテーションはオブジェクトごとに1つのポイントをラベル付けするだけです。
グラフ伝搬モジュールによって促進されるトレーニングとラベル伝搬を反復的に行う。
我々のモデルは、ポイントクラスタリング戦略を備えた3Dインスタンスセグメンテーションと互換性がある。
論文 参考訳(メタデータ) (2023-03-26T13:57:00Z) - Collaborative Propagation on Multiple Instance Graphs for 3D Instance
Segmentation with Single-point Supervision [63.429704654271475]
本稿では,1つのオブジェクトを1つのポイントでラベル付けするだけでよい,弱教師付き手法RWSegを提案する。
これらの疎いラベルにより、セマンティック情報とインスタンス情報を伝達する2つの分岐を持つ統一的なフレームワークを導入する。
具体的には、異なるインスタンスグラフ間の競合を促進するクロスグラフ競合ランダムウォークス(CRW)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T02:14:39Z) - Dense Supervision Propagation for Weakly Supervised Semantic Segmentation on 3D Point Clouds [59.63231842439687]
意味点クラウドセグメンテーションネットワークをトレーニングする。
同様の特徴を伝達し、2つのサンプルにまたがる勾配を再現するクロスサンプル機能再配置モジュールを提案する。
ラベルの10%と1%しか持たない弱教師付き手法では、完全教師付き手法と互換性のある結果が得られる。
論文 参考訳(メタデータ) (2021-07-23T14:34:57Z) - One Thing One Click: A Self-Training Approach for Weakly Supervised 3D
Semantic Segmentation [78.36781565047656]
私たちは、アノテーションーがオブジェクトごとに1ポイントだけラベルを付ける必要があることを意味する「One Thing One Click」を提案します。
グラフ伝搬モジュールによって促進されるトレーニングとラベル伝搬を反復的に行う。
私たちの結果は、完全に監督されたものと同等です。
論文 参考訳(メタデータ) (2021-04-06T02:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。