論文の概要: LLM-Guided Taxonomy and Hierarchical Uncertainty for 3D Point CLoud Active Learning
- arxiv url: http://arxiv.org/abs/2505.18924v1
- Date: Sun, 25 May 2025 01:10:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.753896
- Title: LLM-Guided Taxonomy and Hierarchical Uncertainty for 3D Point CLoud Active Learning
- Title(参考訳): 3DポイントラウンドアクティブラーニングのためのLCM指導型分類学と階層的不確実性
- Authors: Chenxi Li, Nuo Chen, Fengyun Tan, Yantong Chen, Bochun Yuan, Tianrui Li, Chongshou Li,
- Abstract要約: 本稿では3Dポイントクラウドセマンティックセマンティックセグメンテーションのための新しいアクティブラーニングフレームワークを提案する。
大規模言語モデル(LLM)を統合し、階層的なラベル構造を構築し、不確実性に基づくサンプル選択をガイドする。
この結果は,3次元ビジョンにおける知識の先行としてLLMの未解決の可能性を強調し,効率的なポイントクラウドアノテーションのための強力なパラダイムとして階層的不確実性モデリングを確立した。
- 参考スコア(独自算出の注目度): 21.291028259534308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel active learning framework for 3D point cloud semantic segmentation that, for the first time, integrates large language models (LLMs) to construct hierarchical label structures and guide uncertainty-based sample selection. Unlike prior methods that treat labels as flat and independent, our approach leverages LLM prompting to automatically generate multi-level semantic taxonomies and introduces a recursive uncertainty projection mechanism that propagates uncertainty across hierarchy levels. This enables spatially diverse, label-aware point selection that respects the inherent semantic structure of 3D scenes. Experiments on S3DIS and ScanNet v2 show that our method achieves up to 4% mIoU improvement under extremely low annotation budgets (e.g., 0.02%), substantially outperforming existing baselines. Our results highlight the untapped potential of LLMs as knowledge priors in 3D vision and establish hierarchical uncertainty modeling as a powerful paradigm for efficient point cloud annotation.
- Abstract(参考訳): 本稿では3Dポイントクラウドセマンティックセマンティックセグメンテーションのための新しいアクティブラーニングフレームワークを提案する。これは,大規模言語モデル(LLM)を統合して階層的なラベル構造を構築し,不確実性に基づくサンプル選択をガイドする。
ラベルをフラットで独立したものとして扱う従来の方法とは違い,LLMは多段階のセマンティックな分類を自動生成し,階層レベルの不確実性を伝播する再帰的不確実性予測機構を導入する。
これにより、3Dシーンの本質的な意味構造を尊重する空間的に多様でラベル対応の点選択が可能になる。
S3DIS と ScanNet v2 の実験により,提案手法は極めて低いアノテーション予算 (0.02% など) で最大 4% mIoU の改善を実現し,既存のベースラインを大幅に上回る結果となった。
この結果は,3次元ビジョンにおける知識の先行としてLLMの未解決の可能性を強調し,効率的なポイントクラウドアノテーションのための強力なパラダイムとして階層的不確実性モデリングを確立した。
関連論文リスト
- Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - Language-Assisted 3D Scene Understanding [17.663583203177197]
我々は,ポイントクラウド特徴学習(LAST-PCL)のための言語支援アプローチを提案する。
我々は,テキストの先行性を損なうことなく,非冗長性と特徴次元の低減を実現する。
提案手法は意味的に意味のあるポイントクラウドの特徴を学習し、3Dセマンティックセグメンテーション、3Dオブジェクト検出、3Dシーン分類タスクにおける最先端または同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-18T18:54:56Z) - Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic
Segmentation [17.914290294935427]
従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。
CLIPのような大規模ビジュアル言語事前訓練モデルでは、ゼロショット2Dビジョンタスクにおいて、その一般化能力を示している。
本稿では,CLIPが入力する視覚言語知識をクラウドエンコーダに転送するための,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2023-12-12T12:35:59Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - LISNeRF Mapping: LiDAR-based Implicit Mapping via Semantic Neural Fields for Large-Scale 3D Scenes [2.822816116516042]
大規模セマンティックマッピングは、屋外の自律エージェントが計画やナビゲーションといった高度なタスクを遂行するために不可欠である。
本稿では,提案するLiDAR測度のみでの暗黙的表現による大規模3次元意味再構築手法を提案する。
論文 参考訳(メタデータ) (2023-11-04T03:55:38Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Box2Seg: Learning Semantics of 3D Point Clouds with Box-Level
Supervision [65.19589997822155]
我々は3Dポイントクラウドのポイントレベルのセマンティクスをバウンディングボックスレベルの監視で学習するために,Box2Segと呼ばれるニューラルアーキテクチャを導入する。
提案するネットワークは,安価な,あるいは既定のバウンディングボックスレベルのアノテーションやサブクラウドレベルのタグでトレーニング可能であることを示す。
論文 参考訳(メタデータ) (2022-01-09T09:07:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。