論文の概要: Semantic-aware DropSplat: Adaptive Pruning of Redundant Gaussians for 3D Aerial-View Segmentation
- arxiv url: http://arxiv.org/abs/2508.09626v1
- Date: Wed, 13 Aug 2025 08:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.82443
- Title: Semantic-aware DropSplat: Adaptive Pruning of Redundant Gaussians for 3D Aerial-View Segmentation
- Title(参考訳): セマンティック・アウェアDropSplat:3次元航空ビューセグメンテーションのための冗長ガウスの適応的プルーニング
- Authors: Xu Tang, Junan Jia, Yijing Wang, Jingjing Ma, Xiangrong Zhang,
- Abstract要約: SAD-Splatという新しい3D-AVS-SSアプローチを提案する。
本手法は,ハードコンクリートの分布に基づいて,意味的信頼度を学習可能な疎性メカニズムと統合する。
セグメンテーションの精度と表現のコンパクトさのバランスは良好である。
- 参考スコア(独自算出の注目度): 15.196083762043004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the task of 3D Aerial-view Scene Semantic Segmentation (3D-AVS-SS), traditional methods struggle to address semantic ambiguity caused by scale variations and structural occlusions in aerial images. This limits their segmentation accuracy and consistency. To tackle these challenges, we propose a novel 3D-AVS-SS approach named SAD-Splat. Our method introduces a Gaussian point drop module, which integrates semantic confidence estimation with a learnable sparsity mechanism based on the Hard Concrete distribution. This module effectively eliminates redundant and semantically ambiguous Gaussian points, enhancing both segmentation performance and representation compactness. Furthermore, SAD-Splat incorporates a high-confidence pseudo-label generation pipeline. It leverages 2D foundation models to enhance supervision when ground-truth labels are limited, thereby further improving segmentation accuracy. To advance research in this domain, we introduce a challenging benchmark dataset: 3D Aerial Semantic (3D-AS), which encompasses diverse real-world aerial scenes with sparse annotations. Experimental results demonstrate that SAD-Splat achieves an excellent balance between segmentation accuracy and representation compactness. It offers an efficient and scalable solution for 3D aerial scene understanding.
- Abstract(参考訳): エアリアルビューのシーンセマンティックセグメンテーション(3D-AVS-SS)の課題では、従来の手法は、空中画像におけるスケールの変動と構造的閉塞に起因する意味的あいまいさに対処するのに苦労している。
これによりセグメンテーションの精度と一貫性が制限される。
これらの課題に対処するために,SAD-Splatという新しい3D-AVS-SSアプローチを提案する。
本手法では,ハードコンクリートの分布に基づいて,意味的信頼度推定と学習可能な疎度機構を統合するガウス点降下モジュールを提案する。
このモジュールは、冗長かつ意味的にあいまいなガウス点を効果的に排除し、セグメンテーション性能と表現コンパクト性の両方を高める。
さらに、SAD-Splatには高信頼の擬似ラベル生成パイプラインが組み込まれている。
2Dファウンデーションモデルを活用して、グランドトラストラベルが制限された場合の監督を強化し、セグメンテーション精度をさらに向上する。
この領域の研究を進めるために、3Dエアリアルセマンティック(3D-AS)という課題のあるベンチマークデータセットを導入する。
実験の結果, SAD-Splatはセグメント化精度と表現のコンパクトさのバランスが良好であることがわかった。
3D空中シーン理解のための、効率的でスケーラブルなソリューションを提供する。
関連論文リスト
- Hi^2-GSLoc: Dual-Hierarchical Gaussian-Specific Visual Relocalization for Remote Sensing [6.997091164331322]
リモートセンシングやUAVアプリケーションには、視覚的再ローカライゼーションが不可欠である。
画像に基づく検索とポーズ回帰アプローチは精度に欠ける。
スパース・トゥ・デンス(sparse-to-dense)と粗粒度(arse-to-fine)のパラダイムに従う二重階層的再ローカライゼーションフレームワークである$mathrmHi2$-GSLocを紹介した。
論文 参考訳(メタデータ) (2025-07-21T14:47:56Z) - TACOcc:Target-Adaptive Cross-Modal Fusion with Volume Rendering for 3D Semantic Occupancy [14.075911467687789]
本稿では,3次元意味的占有予測のためのターゲットスケール適応対称検索機構を提案する。
大規模なターゲットのために地区を拡張し、コンテキスト認識を強化し、小さなターゲットのためにそれを縮小し、効率を改善し、騒音を抑える。
本稿では,3次元意味的占有予測のための適応型マルチモーダル融合フレームワークTACOccを提案する。
論文 参考訳(メタデータ) (2025-05-19T04:32:36Z) - PanopticSplatting: End-to-End Panoptic Gaussian Splatting [20.04251473153725]
そこで我々は,オープン・ボキャブラリ・パノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノ
本手法では,クエリ誘導型ガウス分割と局所的クロスアテンションを導入し,クロスフレームアソシエーションなしで2次元のインスタンスマスクを持ち上げる。
本手法は,ScanNet-V2とScanNet++データセット上での3Dシーンパノビュータ再構成において,高い性能を示す。
論文 参考訳(メタデータ) (2025-03-23T13:45:39Z) - TSGaussian: Semantic and Depth-Guided Target-Specific Gaussian Splatting from Sparse Views [18.050257821756148]
TSGaussianは、新しいビュー合成タスクにおける幾何学的劣化を避けるために、意味的制約と深さ事前の制約を組み合わせる新しいフレームワークである。
提案手法は,バックグラウンドアロケーションを最小化しながら,指定された目標に対する計算資源の優先順位付けを行う。
大規模な実験により、TSGaussianは3つの標準データセット上で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-13T11:26:38Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。
既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for View-Consistent 3D Indoor Semantic Understanding [17.440124130814166]
室内シーンのオープンな3Dセマンティック理解のためのCLIPモデルを用いた3Dガウススティング(3DGS)が注目されている。
提案するセマンティック属性コンパクト性(SAC)と3Dコヒーレント正規化(3DCR)を用いて、3次元屋内シーンのコヒーレントな意味理解を効率的に実現するCLIP-GSを提案する。
ScanNetとReplicaのデータセット上で,mIoUの21.20%と13.05%の改善を実現し,既存の最先端手法を著しく抑制する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - SAGD: Boundary-Enhanced Segment Anything in 3D Gaussian via Gaussian Decomposition [66.56357905500512]
3Dガウススプラッティングは、新しいビュー合成のための代替の3D表現として登場した。
SAGDは3D-GSのための概念的にシンプルで効果的な境界拡張パイプラインである。
提案手法は粗い境界問題なく高品質な3Dセグメンテーションを実現し,他のシーン編集作業にも容易に適用できる。
論文 参考訳(メタデータ) (2024-01-31T14:19:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。