論文の概要: OpenUrban3D: Annotation-Free Open-Vocabulary Semantic Segmentation of Large-Scale Urban Point Clouds
- arxiv url: http://arxiv.org/abs/2509.10842v1
- Date: Sat, 13 Sep 2025 15:03:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.808326
- Title: OpenUrban3D: Annotation-Free Open-Vocabulary Semantic Segmentation of Large-Scale Urban Point Clouds
- Title(参考訳): OpenUrban3D: 大都市点雲の注釈なしオープン語彙セマンティックセマンティックセマンティックセグメンテーション
- Authors: Chongyu Wang, Kunlei Jing, Jihua Zhu, Di Wang,
- Abstract要約: OpenUrban3Dは,大規模都市シーンを対象とした3次元オープン語彙セマンティックセマンティックセマンティック・フレームワークである。
提案手法は,マルチビュー,多粒度レンダリング,マスクレベルの視覚言語特徴抽出,サンプルバランスの取れた融合により,原点雲から直接ロバストな意味的特徴を生成する。
この設計により、任意のテキストクエリに対するゼロショットセグメンテーションが可能となり、意味的豊かさと幾何学的先行性の両方をキャプチャできる。
- 参考スコア(独自算出の注目度): 23.982606719607702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary semantic segmentation enables models to recognize and segment objects from arbitrary natural language descriptions, offering the flexibility to handle novel, fine-grained, or functionally defined categories beyond fixed label sets. While this capability is crucial for large-scale urban point clouds that support applications such as digital twins, smart city management, and urban analytics, it remains largely unexplored in this domain. The main obstacles are the frequent absence of high-quality, well-aligned multi-view imagery in large-scale urban point cloud datasets and the poor generalization of existing three-dimensional (3D) segmentation pipelines across diverse urban environments with substantial variation in geometry, scale, and appearance. To address these challenges, we present OpenUrban3D, the first 3D open-vocabulary semantic segmentation framework for large-scale urban scenes that operates without aligned multi-view images, pre-trained point cloud segmentation networks, or manual annotations. Our approach generates robust semantic features directly from raw point clouds through multi-view, multi-granularity rendering, mask-level vision-language feature extraction, and sample-balanced fusion, followed by distillation into a 3D backbone model. This design enables zero-shot segmentation for arbitrary text queries while capturing both semantic richness and geometric priors. Extensive experiments on large-scale urban benchmarks, including SensatUrban and SUM, show that OpenUrban3D achieves significant improvements in both segmentation accuracy and cross-scene generalization over existing methods, demonstrating its potential as a flexible and scalable solution for 3D urban scene understanding.
- Abstract(参考訳): オープンボキャブラリセマンティックセグメンテーションにより、モデルは任意の自然言語記述からオブジェクトを認識し、セグメンテーションすることができる。
この能力は、デジタルツイン、スマートシティ管理、都市分析などのアプリケーションをサポートする大規模な都市ポイントクラウドにとって不可欠だが、この分野では明らかにされていない。
主な障害は、大規模都市点クラウドデータセットにおける高品質で整合性の高いマルチビュー画像の欠如と、幾何、スケール、外観にかなりの変化がある様々な都市環境における既存の3次元(3D)セグメンテーションパイプラインの一般化の欠如である。
これらの課題に対処するために,大規模な都市シーンを対象とした最初の3次元オープン語彙セマンティックセマンティックセマンティックセマンティクスフレームワークOpenUrban3Dを紹介した。
提案手法は,マルチビュー,多粒度レンダリング,マスクレベルの視覚言語特徴抽出,試料平衡融合により,原点雲から直接ロバストな意味的特徴を生成し,次いで3次元バックボーンモデルに蒸留する。
この設計により、任意のテキストクエリに対するゼロショットセグメンテーションが可能となり、意味的豊かさと幾何学的先行性の両方をキャプチャできる。
SensatUrbanやSUMといった大規模都市ベンチマークの大規模な実験により、OpenUrban3Dは既存の手法よりもセグメンテーション精度とクロスシーンの一般化の両方において大幅な改善を実現し、3D都市景観理解のためのフレキシブルでスケーラブルなソリューションとしての可能性を示している。
関連論文リスト
- CitySeg: A 3D Open Vocabulary Semantic Segmentation Foundation Model in City-scale Scenarios [3.195397940217441]
CitySegは、都市規模のクラウドセマンティックセグメンテーションの基礎モデルである。
オープン語彙のセグメンテーションとゼロショット推論を実現するために、テキストモダリティが組み込まれている。
CitySegは初めて、都市スケールのクラウドシナリオでゼロショットの一般化を可能にする。
論文 参考訳(メタデータ) (2025-08-13T03:55:56Z) - HAECcity: Open-Vocabulary Scene Understanding of City-Scale Point Clouds with Superpoint Graph Clustering [49.64902130083662]
階層的ボクサブ・アグノスティック・エキスパート・クラスタリング(HAEC)について,「それら」のラテン語の後に紹介する。
この高度にスケーラブルなアプローチを,SensatUrbanの都市規模データセット上でのオープン語彙シーン理解の最初の応用に適用する。
我々の技術は、高密度の都市3Dシーンでの複雑な操作を解き放ち、デジタル双生児の処理に新たな道を開くのに役立つ。
論文 参考訳(メタデータ) (2025-04-18T09:48:42Z) - GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-01T05:19:50Z) - Aerial Lifting: Neural Urban Semantic and Building Instance Lifting from Aerial Imagery [51.73680703579997]
航空画像から都市規模のセマンティックスとビルレベルのインスタンスセグメンテーションのためのニューラルラジアンスフィールド法を提案する。
都市空撮画像の物体は、建物、車、道路など、相当な大きさのバリエーションを示している。
我々は,様々な大きさのオブジェクトのセグメンテーションを強化する,スケール適応型セマンティックラベル融合戦略を導入する。
次に、2次元のインスタンスラベルにおける多視点不整合問題を緩和するために、新しいクロスビューインスタンスラベルグループ化戦略を導入する。
論文 参考訳(メタデータ) (2024-03-18T14:15:39Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - City-scale Incremental Neural Mapping with Three-layer Sampling and
Panoptic Representation [5.682979644056021]
我々は、環境レベルとインスタンスレベルのモデリングからなるパノプティクス表現を用いた都市規模連続型ニューラルマッピングシステムを構築した。
疎いLiDAR点雲のストリームが与えられると、3D座標を符号付き距離場(SDF)値にマッピングする動的生成モデルを維持する。
不完全な観測下でのインスタンスの高忠実度マッピングを実現するために、幾何学的詳細をより良くモデル化するために、カテゴリ固有の事前を導入している。
論文 参考訳(メタデータ) (2022-09-28T13:14:40Z) - SensatUrban: Learning Semantics from Urban-Scale Photogrammetric Point
Clouds [52.624157840253204]
センサットウルバン(SensatUrban)は、イギリスの3都市から収集された7.6km2の30億点近くからなる、都市規模のUAV測光点クラウドデータセットである。
データセットの各ポイントは、粒度の細かいセマンティックアノテーションでラベル付けされ、その結果、既存の最大のフォトグラムポイントクラウドデータセットの3倍の大きさのデータセットが生成される。
論文 参考訳(メタデータ) (2022-01-12T14:48:11Z) - Vis2Mesh: Efficient Mesh Reconstruction from Unstructured Point Clouds
of Large Scenes with Learned Virtual View Visibility [17.929307870456416]
非構造点雲からのメッシュ再構築のための新しいフレームワークを提案する。
仮想ビューと従来のグラフカットベースのメッシュ生成において、学習した3Dポイントの可視性を活用します。
論文 参考訳(メタデータ) (2021-08-18T20:28:16Z) - Semantic Segmentation for Real Point Cloud Scenes via Bilateral
Augmentation and Adaptive Fusion [38.05362492645094]
現実世界の複雑な環境を直感的に捉えることができますが、3Dデータの生の性質のため、機械認識にとって非常に困難です。
我々は、現実に収集された大規模クラウドデータに対して、重要な視覚的タスク、セマンティックセグメンテーションに集中する。
3つのベンチマークで最先端のネットワークと比較することにより,ネットワークの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-12T04:13:20Z) - Towards Semantic Segmentation of Urban-Scale 3D Point Clouds: A Dataset,
Benchmarks and Challenges [52.624157840253204]
我々は、30億点近い注釈付きポイントを持つ都市規模の測光点クラウドデータセットを提示する。
私たちのデータセットは、イギリスの3つの都市からなり、都市の景観の約7.6km2をカバーしています。
我々は,データセット上での最先端アルゴリズムの性能を評価し,その結果を包括的に分析する。
論文 参考訳(メタデータ) (2020-09-07T14:47:07Z) - Weakly Supervised Semantic Segmentation in 3D Graph-Structured Point
Clouds of Wild Scenes [36.07733308424772]
3Dセグメンテーションラベルの欠如は、効率的な点雲セグメンテーションの主な障害の1つである。
本稿では,2D のみを監督する点群における大規模セマンティックシーンセグメンテーションのための,新しいディープグラフ畳み込みネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-26T23:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。