Fugu-MT 論文翻訳(概要): Data-Efficient Semantic Segmentation of 3D Point Clouds via Open-Vocabulary Image Segmentation-based Pseudo-Labeling

論文の概要: Data-Efficient Semantic Segmentation of 3D Point Clouds via Open-Vocabulary Image Segmentation-based Pseudo-Labeling

arxiv url: http://arxiv.org/abs/2604.11007v1
Date: Mon, 13 Apr 2026 05:16:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:16.340302
Title: Data-Efficient Semantic Segmentation of 3D Point Clouds via Open-Vocabulary Image Segmentation-based Pseudo-Labeling
Title（参考訳）: 開語彙画像分割に基づく擬似ラベリングによる3次元点雲の効率的なセマンティックセマンティックセグメンテーション
Authors: Takahiko Furuya,
Abstract要約: トレーニングセグメンテーションモデルは、トレーニングシーンの不足、ポイントレベルのアノテーションの不足、ポイントクラウドが再構成された2D画像シーケンスの欠如という、3つの同時的なデータ不足に直面していることが多い。本稿では,学習データ不足を補う擬似ラベル生成器として,Open-Vocabulary Image (PLOVIS) モデルを用いたポイント擬似ラベル生成を提案する。 PLOVISは、最先端の弱い教師付き学習アルゴリズムを含む既存の手法を一貫して上回っている。
参考スコア（独自算出の注目度）: 0.20305676256390928
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Semantic segmentation of 3D point cloud scenes is a crucial task for various applications. In real-world scenarios, training segmentation models often faces three concurrent forms of data insufficiency: scarcity of training scenes, scarcity of point-level annotations, and absence of 2D image sequences from which point clouds were reconstructed. Existing data-efficient algorithms typically address only one or two of these challenges, leaving the joint treatment of all three unexplored. This paper proposes a data-efficient training framework specifically designed to address the three forms of data insufficiency. Our proposed algorithm, called Point pseudo-Labeling via Open-Vocabulary Image Segmentation (PLOVIS), leverages an Open-Vocabulary Image Segmentation (OVIS) model as a pseudo label generator to compensate for the lack of training data. PLOVIS creates 2D images for pseudo-labeling directly from training 3D point clouds, eliminating the need for 2D image sequences. To mitigate the inherent noise and class imbalance in pseudo labels, we introduce a two-stage filtering of pseudo labels combined with a class-balanced memory bank for effective training. The two-stage filtering mechanism first removes low-confidence pseudo labels, then discards likely incorrect pseudo labels, thereby enhancing the quality of pseudo labels. Experiments on four benchmark datasets, i.e., ScanNet, S3DIS, Toronto3D, and Semantic3D, under realistic data-scarce conditions (a few tens of training 3D scenes, each annotated with only <100 3D points) demonstrate that PLOVIS consistently outperforms existing methods including standard fine-tuning strategies and state-of-the-art weakly supervised learning algorithms. Code will be made publicly available.
Abstract（参考訳）: 3Dポイントクラウドシーンのセマンティックセグメンテーションは、様々なアプリケーションにとって重要なタスクである。実世界のシナリオでは、トレーニングセグメンテーションモデルは、トレーニングシーンの不足、ポイントレベルのアノテーションの不足、ポイントクラウドが再構成された2D画像シーケンスの欠如という、3つの同時形式のデータ不足に直面します。既存のデータ効率のアルゴリズムは通常、これらの課題のうち1つか2つだけに対処し、探索されていない3つの共同処理を残している。本稿では,データ不足の3つの形態に対処するための,データ効率のトレーニングフレームワークを提案する。提案アルゴリズムは,Open-Vocabulary Image Segmentation (PLOVIS) を用いて,擬似ラベル生成器として Open-Vocabulary Image Segmentation (OVIS) モデルを利用する。 PLOVISは、トレーニングされた3Dポイントクラウドから直接擬似ラベルのための2D画像を生成し、2Dイメージシーケンスを不要にする。擬似ラベルの固有ノイズとクラス不均衡を軽減するため,擬似ラベルとクラスバランス記憶バンクを組み合わせた2段階のフィルタリングを導入し,効果的なトレーニングを行う。 2段階フィルタリング機構は、まず低信頼の擬似ラベルを除去し、偽のラベルを破棄し、擬似ラベルの品質を高める。 ScanNet、S3DIS、Tronto3D、Semantic3Dの4つのベンチマークデータセットの実験では、現実的なデータスカース条件下では、PLOVISが標準的な微調整戦略や最先端の弱い教師付き学習アルゴリズムを含む既存の手法を一貫して上回っていることが示されている。コードは公開されます。

関連論文リスト

Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文参考訳（メタデータ） (2024-09-12T14:54:31Z)
Label-Efficient 3D Brain Segmentation via Complementary 2D Diffusion Models with Orthogonal Views [10.944692719150071]
相補的な2次元拡散モデルを用いた新しい3次元脳分割法を提案する。私たちのゴールは、個々の主題に対して完全なラベルを必要とせずに、信頼性の高いセグメンテーション品質を達成することです。
論文参考訳（メタデータ） (2024-07-17T06:14:53Z)
3D Annotation-Free Learning by Distilling 2D Open-Vocabulary Segmentation Models for Autonomous Driving [17.42913935045091]
2D textbf Open-textbfVocabulary セグメンテーションモデルを用いた新しい3D textbf Annotation-textbfFree フレームワーク AFOV を提案する。第一段階では、2次元オープン語彙モデルの高品質テキストと画像の特徴を革新的に統合し、TMP(Tri-Modal contrastive Pre-training)を提案する。第2段階では、点雲と画像の間の空間マッピングを利用して擬似ラベルを生成し、交差を可能にする。
論文参考訳（メタデータ） (2024-05-24T07:18:09Z)
U3DS$^3$: Unsupervised 3D Semantic Scene Segmentation [19.706172244951116]
本稿では,U3DS$3$について,総合的な3Dシーンに対して,完全に教師なしのポイントクラウドセグメンテーションに向けたステップとして提示する。提案手法の最初のステップは,各シーンの幾何学的特徴に基づいてスーパーポイントを生成することである。次に、空間クラスタリングに基づく手法を用いて学習プロセスを行い、次いで、クラスタセントロイドに応じて生成された擬似ラベルを用いて反復的なトレーニングを行う。
論文参考訳（メタデータ） (2023-11-10T12:05:35Z)
You Only Need One Thing One Click: Self-Training for Weakly Supervised 3D Scene Understanding [107.06117227661204]
私たちはOne Thing One Click''を提案する。つまり、アノテーションはオブジェクトごとに1つのポイントをラベル付けするだけです。グラフ伝搬モジュールによって促進されるトレーニングとラベル伝搬を反復的に行う。我々のモデルは、ポイントクラスタリング戦略を備えた3Dインスタンスセグメンテーションと互換性がある。
論文参考訳（メタデータ） (2023-03-26T13:57:00Z)
CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文参考訳（メタデータ） (2023-01-12T10:42:39Z)
Image Understands Point Cloud: Weakly Supervised 3D Semantic Segmentation via Association Learning [59.64695628433855]
ラベルのない画像から補完的な情報を取り入れた3次元セグメンテーションのための新しいクロスモダリティ弱教師付き手法を提案する。基本的に、ラベルの小さな部分のパワーを最大化するために、アクティブなラベリング戦略を備えたデュアルブランチネットワークを設計する。提案手法は,1%未満のアクティブなアノテーションで,最先端の完全教師付き競合よりも優れていた。
論文参考訳（メタデータ） (2022-09-16T07:59:04Z)
One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation [78.36781565047656]
私たちは、アノテーションーがオブジェクトごとに1ポイントだけラベルを付ける必要があることを意味する「One Thing One Click」を提案します。グラフ伝搬モジュールによって促進されるトレーニングとラベル伝搬を反復的に行う。私たちの結果は、完全に監督されたものと同等です。
論文参考訳（メタデータ） (2021-04-06T02:27:25Z)
Weakly Supervised Semantic Segmentation in 3D Graph-Structured Point Clouds of Wild Scenes [36.07733308424772]
3Dセグメンテーションラベルの欠如は、効率的な点雲セグメンテーションの主な障害の1つである。本稿では,2D のみを監督する点群における大規模セマンティックシーンセグメンテーションのための,新しいディープグラフ畳み込みネットワークフレームワークを提案する。
論文参考訳（メタデータ） (2020-04-26T23:02:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。