論文の概要: HAECcity: Open-Vocabulary Scene Understanding of City-Scale Point Clouds with Superpoint Graph Clustering
- arxiv url: http://arxiv.org/abs/2504.13590v1
- Date: Fri, 18 Apr 2025 09:48:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 16:20:43.296184
- Title: HAECcity: Open-Vocabulary Scene Understanding of City-Scale Point Clouds with Superpoint Graph Clustering
- Title(参考訳): HAECcity: スーパーポイントグラフクラスタリングによる都市規模クラウドのオープンボキャブラリシーン理解
- Authors: Alexander Rusnak, Frédéric Kaplan,
- Abstract要約: 階層的ボクサブ・アグノスティック・エキスパート・クラスタリング(HAEC)について,「それら」のラテン語の後に紹介する。
この高度にスケーラブルなアプローチを,SensatUrbanの都市規模データセット上でのオープン語彙シーン理解の最初の応用に適用する。
我々の技術は、高密度の都市3Dシーンでの複雑な操作を解き放ち、デジタル双生児の処理に新たな道を開くのに役立つ。
- 参考スコア(独自算出の注目度): 49.64902130083662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional 3D scene understanding techniques are generally predicated on hand-annotated label sets, but in recent years a new class of open-vocabulary 3D scene understanding techniques has emerged. Despite the success of this paradigm on small scenes, existing approaches cannot scale efficiently to city-scale 3D datasets. In this paper, we present Hierarchical vocab-Agnostic Expert Clustering (HAEC), after the latin word for 'these', a superpoint graph clustering based approach which utilizes a novel mixture of experts graph transformer for its backbone. We administer this highly scalable approach to the first application of open-vocabulary scene understanding on the SensatUrban city-scale dataset. We also demonstrate a synthetic labeling pipeline which is derived entirely from the raw point clouds with no hand-annotation. Our technique can help unlock complex operations on dense urban 3D scenes and open a new path forward in the processing of digital twins.
- Abstract(参考訳): 従来の3Dシーン理解技術は、一般に手書きラベルセットに代表されるが、近年ではオープンな3Dシーン理解技術が新たに出現している。
小さなシーンでのこのパラダイムの成功にもかかわらず、既存のアプローチは都市規模の3Dデータセットに効率的にスケールすることはできない。
本稿では,階層的なボクサブ・アグノスティック・エキスパート・クラスタリング(HAEC)について,そのバックボーンに専門家グラフトランスフォーマーを新たに組み合わせたスーパーポイントグラフクラスタリングに基づくアプローチである「these」のラテン語の後に紹介する。
この高度にスケーラブルなアプローチを,SensatUrbanの都市規模データセット上でのオープン語彙シーン理解の最初の応用に適用する。
また,手書き注釈のない原点雲から完全に派生した合成ラベリングパイプラインを実演する。
我々の技術は、高密度の都市3Dシーンでの複雑な操作を解き放ち、デジタル双生児の処理に新たな道を開くのに役立つ。
関連論文リスト
- Training-Free Hierarchical Scene Understanding for Gaussian Splatting with Superpoint Graphs [16.153129392697885]
ガウス原始体から直接スーパーポイントグラフを構築する訓練自由フレームワークを導入する。
スーパーポイントグラフはシーンを空間的にコンパクトでセマンティックなコヒーレントな領域に分割し、ビュー一貫性の3Dエンティティを形成する。
提案手法は,30時間以上のセグメンテーションを高速化し,最先端のオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T17:56:07Z) - PanoGS: Gaussian-based Panoptic Segmentation for 3D Open Vocabulary Scene Understanding [8.72555461868951]
3D Gaussian Splatting (3DGS) はオープンな語彙シーン理解タスクの促進効果を示した。
従来の方法では3Dインスタンスレベルの情報は識別できないが、通常はシーンの特徴とテキストクエリ間のヒートマップを予測する。
新規かつ効果的な3次元パノプティカルオープンなシーン理解手法であるPanoGSを提案する。
論文 参考訳(メタデータ) (2025-03-23T15:27:29Z) - OpenGS-SLAM: Open-Set Dense Semantic SLAM with 3D Gaussian Splatting for Object-Level Scene Understanding [20.578106363482018]
OpenGS-SLAMは3次元ガウス表現を利用して、オープンセット環境で密接なセマンティックSLAMを実行する革新的なフレームワークである。
本システムは,2次元モデルから派生した明示的なセマンティックラベルを3次元ガウスフレームワークに統合し,ロバストな3次元オブジェクトレベルの理解を容易にする。
本手法は従来の手法に比べて10倍高速なセマンティックレンダリングと2倍のストレージコストを実現する。
論文 参考訳(メタデータ) (2025-03-03T15:23:21Z) - OVGaussian: Generalizable 3D Gaussian Segmentation with Open Vocabularies [112.80292725951921]
textbfOVGaussianは3D textbfGaussian表現に基づいた、一般化可能なtextbfOpen-textbfVocabulary 3Dセマンティックセマンティックセグメンテーションフレームワークである。
まず,3DGSをベースとした大規模3Dシーンデータセット(textbfSegGaussian)を構築し,ガウス点とマルチビュー画像の両方に対して詳細なセマンティックおよびインスタンスアノテーションを提供する。
シーン間のセマンティック・一般化を促進するために,ジェネリック・セマンティック・ラスタライゼーション(GSR)を導入する。
論文 参考訳(メタデータ) (2024-12-31T07:55:35Z) - Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - OpenSU3D: Open World 3D Scene Understanding using Foundation Models [2.1262749936758216]
オープンセット, インスタンスレベルの3次元シーン表現を構築するための, 新規でスケーラブルなアプローチを提案する。
既存の方法は、事前に構築された3Dシーンと、ポイント単位の機能ベクトル学習によるスケーラビリティの問題を必要とする。
ゼロショット一般化機能を示すScanNetとReplicaのデータセットから,複数のシーンに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-07-19T13:01:12Z) - GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-01T05:19:50Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。