論文の概要: Distill, Diffuse, and Semanticize (DDS): Annotation-Free 3D Scene Understanding Based on Multi-Granularity Distillation and Graph-Diffusion-Based Segmentation
- arxiv url: http://arxiv.org/abs/2605.08293v1
- Date: Fri, 08 May 2026 09:39:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.540332
- Title: Distill, Diffuse, and Semanticize (DDS): Annotation-Free 3D Scene Understanding Based on Multi-Granularity Distillation and Graph-Diffusion-Based Segmentation
- Title(参考訳): Distill, Diffuse, and Semanticize (DDS):多粒度蒸留とグラフ拡散に基づくセグメンテーションに基づくアノテーションなし3次元シーン理解
- Authors: Yijing Wang, Ruonan Li, Qilin Wang, Rongqiang Zhao, Jie Liu,
- Abstract要約: 3Dセマンティックなシーン理解は、デジタル双生児、自律運転、スマート農業、そして知覚の具体化に広く応用されている。
最近のアノテーションのない手法は手動の3Dラベルなしで意味領域を発見できるが、それらはしばしばオブジェクトレベルの一貫性の弱さに悩まされる。
本稿では,多粒度蒸留とグラフ拡散に基づくセグメンテーションに基づくアノテーションのない3次元シーン意味理解手法を提案する。
- 参考スコア(独自算出の注目度): 6.093743600103449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D semantic scene understanding has broad applications in digital twins, autonomous driving, smart agriculture, and embodied perception. However, dense point-wise annotation for point clouds is extremely expensive, making fully supervised 3D semantic learning difficult to scale. Recent annotation-free methods can discover semantic regions without manual 3D labels, but they often suffer from weak object-level consistency, inefficient global grouping, and category-agnostic segmented regions. We propose an annotation-free 3D scene semantic understanding method based on multi-granularity distillation and graph-diffusion-based segmentation. The proposed method first leverages structured visual knowledge guidance and superpoint graph diffusion to perform efficient global semantic propagation, alleviating the problem of inconsistent region-level semantics. It then conducts semantic inference through segmentation-cluster association, assigning interpretable category names to segmented 3D regions and improving the overall effectiveness of annotation-free 3D semantic understanding. Extensive experiments on real-world datasets demonstrate the effectiveness of the proposed framework. Compared with the advanced existing annotation-free baselines, our method improves oAcc, mAcc, and mIoU by 5.9%, 8.1%, and 2.4% at most, respectively. These results highlight the promise of the proposed framework for scalable annotation-free 3D scene understanding, especially in real-world scenarios requiring both object segmentation and semantic recognition.
- Abstract(参考訳): 3Dセマンティックなシーン理解は、デジタル双生児、自律運転、スマート農業、そして知覚の具体化に広く応用されている。
しかし、ポイントクラウドに対する高密度なポイントワイドアノテーションは非常に高価であり、完全に教師付き3Dセマンティックラーニングのスケールが困難である。
最近のアノテーションのない手法では手動の3Dラベルなしで意味領域を発見できるが、それらはしばしばオブジェクトレベルの一貫性の弱さ、非効率なグローバルグルーピング、カテゴリーに依存しないセグメンテーション領域に悩まされる。
本稿では,多粒度蒸留とグラフ拡散に基づくセグメンテーションに基づくアノテーションのない3次元シーン意味理解手法を提案する。
提案手法はまず,構造化された視覚的知識指導とスーパーポイントグラフ拡散を利用して,効率的なグローバルな意味伝達を行い,一貫性のない領域レベルの意味論の問題を緩和する。
その後、セグメンテーション・クラスタ・アソシエーションを通じてセグメンテーション・クラスタ・アソシエーションを行い、セグメンテーションされた3D領域に解釈可能なカテゴリ名を割り当て、アノテーションのない3Dセグメンテーション・理解の全体的な効果を向上させる。
実世界のデータセットに関する大規模な実験は、提案フレームワークの有効性を実証している。
従来のアノテーションフリーベースラインと比較して,oAcc,mAcc,mIoUはそれぞれ5.9%,8.1%,2.4%改善した。
これらの結果は、特にオブジェクトのセグメンテーションとセマンティック認識の両方を必要とする現実のシナリオにおいて、スケーラブルなアノテーションのない3Dシーン理解のためのフレームワークの提案を強調している。
関連論文リスト
- Segment Any 3D-Part in a Scene from a Sentence [50.46950922754459]
本稿では,自然言語記述に基づくシーン内の任意の3次元部分のセグメンテーションを実現することを目的とする。
本稿では,高密度部分アノテーションを用いた最初の大規模3Dデータセットである3D-PUデータセットを紹介する。
手法面では,パートレベルセグメンテーションの課題に対処する3DインプットのみのフレームワークであるOpenPart3Dを提案する。
論文 参考訳(メタデータ) (2025-06-24T05:51:22Z) - LogoSP: Local-global Grouping of Superpoints for Unsupervised Semantic Segmentation of 3D Point Clouds [5.636411923613415]
ローカルとグローバルの両方の機能から3Dセマンティクスを学ぶためにLogoSPを紹介します。
我々のアプローチは,周波数領域におけるグローバルなパターンに従ってスーパーポイントをグループ化することで,3次元意味情報を発見することである。
論文 参考訳(メタデータ) (2025-06-09T15:21:37Z) - BFANet: Revisiting 3D Semantic Segmentation with Boundary Feature Analysis [33.53327976669034]
より粒度の細かいレンズを通して3Dセマンティックセマンティックセグメンテーションを再考し、より広範なパフォーマンス指標によって隠蔽される微妙な複雑さに光を当てます。
本稿では,BFANetと呼ばれる3次元セマンティックセマンティック・セマンティック・ネットワークを導入し,セマンティック・バウンダリの特徴を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-16T15:13:11Z) - Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Box2Seg: Learning Semantics of 3D Point Clouds with Box-Level
Supervision [65.19589997822155]
我々は3Dポイントクラウドのポイントレベルのセマンティクスをバウンディングボックスレベルの監視で学習するために,Box2Segと呼ばれるニューラルアーキテクチャを導入する。
提案するネットワークは,安価な,あるいは既定のバウンディングボックスレベルのアノテーションやサブクラウドレベルのタグでトレーニング可能であることを示す。
論文 参考訳(メタデータ) (2022-01-09T09:07:48Z) - 3D Segmentation Learning from Sparse Annotations and Hierarchical
Descriptors [7.161067294394475]
GIDSegはスパースアノテーションからセグメンテーションを同時に学習できる新しいアプローチである。
GIDSegは、動的エッジ畳み込みネットワークを介して、グローバルおよび個別の関係を描いている。
逆学習モジュールは、ID記述子の条件制約をさらに強化するためにも設計されている。
論文 参考訳(メタデータ) (2021-05-27T00:31:37Z) - S3Net: 3D LiDAR Sparse Semantic Segmentation Network [1.330528227599978]
S3NetはLiDARポイントクラウドセマンティックセグメンテーションのための新しい畳み込みニューラルネットワークである。
sparse intra-channel attention module (sintraam)とsparse inter-channel attention module (sinteram)で構成されるエンコーダ-デコーダバックボーンを採用する。
論文 参考訳(メタデータ) (2021-03-15T22:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。