Fugu-MT 論文翻訳(概要): CitySeg: A 3D Open Vocabulary Semantic Segmentation Foundation Model in City-scale Scenarios

論文の概要: CitySeg: A 3D Open Vocabulary Semantic Segmentation Foundation Model in City-scale Scenarios

arxiv url: http://arxiv.org/abs/2508.09470v1
Date: Wed, 13 Aug 2025 03:55:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-14 20:42:00.75035
Title: CitySeg: A 3D Open Vocabulary Semantic Segmentation Foundation Model in City-scale Scenarios
Title（参考訳）: CitySeg: 都市規模シナリオにおける3次元オープン語彙セマンティックセマンティックセマンティックセマンティクスモデル
Authors: Jialei Xu, Zizhuang Wei, Weikang You, Linyun Li, Weijian Sun,
Abstract要約: CitySegは、都市規模のクラウドセマンティックセグメンテーションの基礎モデルである。オープン語彙のセグメンテーションとゼロショット推論を実現するために、テキストモダリティが組み込まれている。 CitySegは初めて、都市スケールのクラウドシナリオでゼロショットの一般化を可能にする。
参考スコア（独自算出の注目度）: 3.195397940217441
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Semantic segmentation of city-scale point clouds is a critical technology for Unmanned Aerial Vehicle (UAV) perception systems, enabling the classification of 3D points without relying on any visual information to achieve comprehensive 3D understanding. However, existing models are frequently constrained by the limited scale of 3D data and the domain gap between datasets, which lead to reduced generalization capability. To address these challenges, we propose CitySeg, a foundation model for city-scale point cloud semantic segmentation that incorporates text modality to achieve open vocabulary segmentation and zero-shot inference. Specifically, in order to mitigate the issue of non-uniform data distribution across multiple domains, we customize the data preprocessing rules, and propose a local-global cross-attention network to enhance the perception capabilities of point networks in UAV scenarios. To resolve semantic label discrepancies across datasets, we introduce a hierarchical classification strategy. A hierarchical graph established according to the data annotation rules consolidates the data labels, and the graph encoder is used to model the hierarchical relationships between categories. In addition, we propose a two-stage training strategy and employ hinge loss to increase the feature separability of subcategories. Experimental results demonstrate that the proposed CitySeg achieves state-of-the-art (SOTA) performance on nine closed-set benchmarks, significantly outperforming existing approaches. Moreover, for the first time, CitySeg enables zero-shot generalization in city-scale point cloud scenarios without relying on visual information.
Abstract（参考訳）: 都市規模クラウドのセマンティックセグメンテーションは、無人航空機(UAV)の認識システムにとって重要な技術であり、視覚情報に頼ることなく3Dポイントの分類を可能にし、包括的な3D理解を実現する。しかし、既存のモデルは、限られた3次元データスケールとデータセット間の領域ギャップによってしばしば制約されるため、一般化能力は低下する。このような課題に対処するため,都市規模クラウドセマンティックセマンティックセマンティクスの基礎モデルであるCitySegを提案する。具体的には、複数の領域にまたがる一様でないデータ分散の問題を緩和するため、データ前処理ルールをカスタマイズし、UAVシナリオにおけるポイントネットワークの知覚能力を高めるために、ローカル・グローバル・クロスアテンション・ネットワークを提案する。データセット間のセマンティックラベルの相違を解決するために,階層的な分類戦略を導入する。データアノテーション規則に従って確立された階層グラフは、データラベルを集約し、グラフエンコーダは、カテゴリ間の階層関係をモデル化するために使用される。さらに,2段階のトレーニング戦略を提案し,ヒンジロスを用いてサブカテゴリの特徴分離性を向上させる。実験結果から,CitySegは9つのクローズドセットベンチマークにおいて最先端(SOTA)性能を達成し,既存手法よりも優れていた。さらに、CitySegは初めて、視覚情報に頼ることなく、都市スケールのポイントクラウドシナリオでゼロショットの一般化を可能にする。

関連論文リスト

OpenUrban3D: Annotation-Free Open-Vocabulary Semantic Segmentation of Large-Scale Urban Point Clouds [23.982606719607702]
OpenUrban3Dは,大規模都市シーンを対象とした3次元オープン語彙セマンティックセマンティックセマンティック・フレームワークである。提案手法は,マルチビュー,多粒度レンダリング,マスクレベルの視覚言語特徴抽出,サンプルバランスの取れた融合により,原点雲から直接ロバストな意味的特徴を生成する。この設計により、任意のテキストクエリに対するゼロショットセグメンテーションが可能となり、意味的豊かさと幾何学的先行性の両方をキャプチャできる。
論文参考訳（メタデータ） (2025-09-13T15:03:28Z)
Graph-Guided Dual-Level Augmentation for 3D Scene Segmentation [21.553363236403822]
3Dポイントクラウドセグメンテーションは、シーン内の個々のポイントにセマンティックラベルを割り当てることを目的としている。既存の手法では、大規模なアノテーションの負担を軽減するためにデータ拡張を採用するのが一般的である。本稿では,現実的な3次元シーン合成のための2レベル制約付きグラフ誘導型データ拡張フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-30T13:25:36Z)
A Data-efficient Framework for Robotics Large-scale LiDAR Scene Parsing [10.497309421830671]
既存の最先端の3Dポイントクラウド理解手法は、完全に教師された方法でのみうまく機能する。この研究は、ラベルが制限されているときのポイントクラウドを理解するための、汎用的でシンプルなフレームワークを提示している。
論文参考訳（メタデータ） (2023-12-03T02:38:51Z)
Dual Adaptive Transformations for Weakly Supervised Point Cloud Segmentation [78.6612285236938]
弱制御点雲分割のための新しいDATモデル(textbfDual textbfAdaptive textbfTransformations)を提案する。我々は,大規模S3DISデータセットとScanNet-V2データセットの2つの人気バックボーンを用いたDATモデルの評価を行った。
論文参考訳（メタデータ） (2022-07-19T05:43:14Z)
SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文参考訳（メタデータ） (2022-05-26T17:00:23Z)
Semantic Segmentation for Point Cloud Scenes via Dilated Graph Feature Aggregation and Pyramid Decoders [15.860648472852597]
拡張グラフ特徴集合(DGFA)をルーツとするグラフ畳み込みネットワークDGFA-Netを提案する。 S3DIS、ShapeNetPart、Tronto-3Dの実験は、DGFA-Netがベースラインアプローチよりも優れていることを示している。
論文参考訳（メタデータ） (2022-04-11T08:41:01Z)
3D Spatial Recognition without Spatially Labeled 3D [127.6254240158249]
Weakly-supervised framework for Point cloud Recognitionを紹介する。 We show that WyPR can detected and segment objects in point cloud data without access any space labels at training time。
論文参考訳（メタデータ） (2021-05-13T17:58:07Z)
PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文参考訳（メタデータ） (2020-12-18T18:06:43Z)
Towards Semantic Segmentation of Urban-Scale 3D Point Clouds: A Dataset, Benchmarks and Challenges [52.624157840253204]
我々は、30億点近い注釈付きポイントを持つ都市規模の測光点クラウドデータセットを提示する。私たちのデータセットは、イギリスの3つの都市からなり、都市の景観の約7.6km2をカバーしています。我々は,データセット上での最先端アルゴリズムの性能を評価し,その結果を包括的に分析する。
論文参考訳（メタデータ） (2020-09-07T14:47:07Z)
Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文参考訳（メタデータ） (2020-08-11T19:10:32Z)
Weakly Supervised Semantic Segmentation in 3D Graph-Structured Point Clouds of Wild Scenes [36.07733308424772]
3Dセグメンテーションラベルの欠如は、効率的な点雲セグメンテーションの主な障害の1つである。本稿では,2D のみを監督する点群における大規模セマンティックシーンセグメンテーションのための,新しいディープグラフ畳み込みネットワークフレームワークを提案する。
論文参考訳（メタデータ） (2020-04-26T23:02:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。