論文の概要: Leveraging 2D-VLM for Label-Free 3D Segmentation in Large-Scale Outdoor Scene Understanding
- arxiv url: http://arxiv.org/abs/2601.02029v1
- Date: Mon, 05 Jan 2026 11:42:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.049224
- Title: Leveraging 2D-VLM for Label-Free 3D Segmentation in Large-Scale Outdoor Scene Understanding
- Title(参考訳): 大規模屋外シーン理解におけるラベルフリー3次元セグメンテーションのための2D-VLMの活用
- Authors: Toshihiko Nishimura, Hirofumi Abe, Kazuhiko Murasaki, Taiga Yoshida, Ryuichi Tanida,
- Abstract要約: 提案手法では,仮想カメラを用いた2次元画像上に3Dポイントクラウドを投影し,自然言語プロンプトでガイドされた基礎2Dモデルを介してセマンティックセグメンテーションを行う。
提案手法は既存のトレーニング不要な手法より優れており,教師付き手法に匹敵するセグメンテーション精度を実現する。
- 参考スコア(独自算出の注目度): 0.9351726364879229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel 3D semantic segmentation method for large-scale point cloud data that does not require annotated 3D training data or paired RGB images. The proposed approach projects 3D point clouds onto 2D images using virtual cameras and performs semantic segmentation via a foundation 2D model guided by natural language prompts. 3D segmentation is achieved by aggregating predictions from multiple viewpoints through weighted voting. Our method outperforms existing training-free approaches and achieves segmentation accuracy comparable to supervised methods. Moreover, it supports open-vocabulary recognition, enabling users to detect objects using arbitrary text queries, thus overcoming the limitations of traditional supervised approaches.
- Abstract(参考訳): 本稿では,注釈付き3DトレーニングデータやペアRGB画像を必要としない大規模クラウドデータに対して,新しい3Dセマンティックセマンティックセマンティクス手法を提案する。
提案手法では,仮想カメラを用いた2次元画像上に3Dポイントクラウドを投影し,自然言語プロンプトでガイドされた基礎2Dモデルを介してセマンティックセグメンテーションを行う。
3Dセグメンテーションは、重み付け投票によって複数の視点から予測を集約することで達成される。
提案手法は既存のトレーニング不要な手法より優れており,教師付き手法に匹敵するセグメンテーション精度を実現する。
さらに、オープン語彙認識をサポートし、任意のテキストクエリを使ってオブジェクトを検出できるようにし、従来の教師付きアプローチの制限を克服する。
関連論文リスト
- 3D Can Be Explored In 2D: Pseudo-Label Generation for LiDAR Point Clouds Using Sensor-Intensity-Based 2D Semantic Segmentation [3.192308005611312]
そこで我々は,3次元セマンティックセマンティックセマンティクスパイプラインを導入し,アライメントシーンと最先端2次元セマンティクス手法を利用した。
本手法は,センサ強度で色付けされたLiDARスキャンから2次元ビューを生成し,これらのビューに2次元セマンティックセマンティックセグメンテーションを適用した。
分割された2D出力は3Dポイントにバックプロジェクターされ、単純な投票ベースの推定器が使用される。
論文 参考訳(メタデータ) (2025-05-06T08:31:32Z) - 3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance [68.8825501902835]
3DSS-VLGは2Dビジョンランゲージ誘導を用いた3Dセマンティックの弱い教師付きアプローチである。
我々の知る限りでは、テキストカテゴリラベルのテキスト意味情報を用いて、弱教師付きセマンティックセマンティックセグメンテーションを調査するのは、これが初めてである。
論文 参考訳(メタデータ) (2024-07-13T09:39:11Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - 3D Guided Weakly Supervised Semantic Segmentation [27.269847900950943]
本稿では,スパース境界ボックスラベルを利用可能な3次元情報に組み込むことにより,弱教師付き2次元セマンティックセマンティックセマンティックセマンティクスモデルを提案する。
手動で2D-3Dセマンティックス(2D-3D-S)データセットのサブセットにバウンディングボックスをラベル付けし、2D-3D推論モジュールを導入し、正確なピクセルワイドセグメント提案マスクを生成する。
論文 参考訳(メタデータ) (2020-12-01T03:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。