論文の概要: From Flight to Insight: Semantic 3D Reconstruction for Aerial Inspection via Gaussian Splatting and Language-Guided Segmentation
- arxiv url: http://arxiv.org/abs/2505.17402v1
- Date: Fri, 23 May 2025 02:35:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.771448
- Title: From Flight to Insight: Semantic 3D Reconstruction for Aerial Inspection via Gaussian Splatting and Language-Guided Segmentation
- Title(参考訳): 飛行から洞察へ:ガウススメッティングと言語誘導セグメンテーションによる航空検査のための意味的3次元再構成
- Authors: Mahmoud Chick Zaouali, Todd Charter, Homayoun Najjaran,
- Abstract要約: 高忠実度3D再構成は, インフラ監視, 構造評価, 環境調査などの航空検査業務において重要である。
従来のフォトグラム法は幾何学的モデリングを可能にするが、意味論的解釈性に欠け、自動検査の有効性を制限している。
ニューラルレンダリングと3Dガウススプラッティング(3DGS)の最近の進歩は、効率的でフォトリアリスティックな再構築を提供するが、同様にシーンレベルの理解が欠如している。
言語誘導型3DセグメンテーションのためにFeature-3DGSを拡張するUAVベースのパイプラインを提案する。
- 参考スコア(独自算出の注目度): 3.0477617036157136
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High-fidelity 3D reconstruction is critical for aerial inspection tasks such as infrastructure monitoring, structural assessment, and environmental surveying. While traditional photogrammetry techniques enable geometric modeling, they lack semantic interpretability, limiting their effectiveness for automated inspection workflows. Recent advances in neural rendering and 3D Gaussian Splatting (3DGS) offer efficient, photorealistic reconstructions but similarly lack scene-level understanding. In this work, we present a UAV-based pipeline that extends Feature-3DGS for language-guided 3D segmentation. We leverage LSeg-based feature fields with CLIP embeddings to generate heatmaps in response to language prompts. These are thresholded to produce rough segmentations, and the highest-scoring point is then used as a prompt to SAM or SAM2 for refined 2D segmentation on novel view renderings. Our results highlight the strengths and limitations of various feature field backbones (CLIP-LSeg, SAM, SAM2) in capturing meaningful structure in large-scale outdoor environments. We demonstrate that this hybrid approach enables flexible, language-driven interaction with photorealistic 3D reconstructions, opening new possibilities for semantic aerial inspection and scene understanding.
- Abstract(参考訳): 高忠実度3D再構成は, インフラ監視, 構造評価, 環境調査などの航空検査業務において重要である。
従来のフォトグラメトリ技術は幾何学的モデリングを可能にするが、意味論的解釈性が欠如しており、自動検査ワークフローの有効性が制限されている。
ニューラルレンダリングと3Dガウススプラッティング(3DGS)の最近の進歩は、効率的でフォトリアリスティックな再構築を提供するが、同様にシーンレベルの理解が欠如している。
本研究では,言語誘導型3DセグメンテーションのためにFeature-3DGSを拡張するUAVベースのパイプラインを提案する。
言語プロンプトに応答してヒートマップを生成するために、LSegベースの機能フィールドとCLIPの埋め込みを活用します。
これらは粗いセグメンテーションを生成するために閾値付けされ、次に最も高いスコアポイントは、新しいビューレンダリングで洗練された2DセグメンテーションのためのSAMまたはSAM2へのプロンプトとして使用される。
大規模屋外環境における有意義な構造を捉える上で, 各種機能フィールドバックボーン(CLIP-LSeg, SAM, SAM2)の強度と限界を強調した。
このハイブリッドアプローチは,光リアルな3次元再構成と柔軟で言語による対話を可能にし,意味的空中検査とシーン理解の新たな可能性を開くことを実証する。
関連論文リスト
- Interpretable Single-View 3D Gaussian Splatting using Unsupervised Hierarchical Disentangled Representation Learning [46.85417907244265]
本稿では,粗い3Dセマンティクスと微粒な3Dセマンティクスの両方を発見するために,3DisGSと呼ばれる解釈可能な単一ビュー3DGSフレームワークを提案する。
本モデルでは,高品質かつ高速な再構成を保ちながら3次元のアンタングル化を実現する。
論文 参考訳(メタデータ) (2025-04-05T14:42:13Z) - T-3DGS: Removing Transient Objects for 3D Scene Reconstruction [83.05271859398779]
映像シーケンスにおける過渡的オブジェクトは、3Dシーン再構成の品質を著しく低下させる可能性がある。
我々は,ガウススプラッティングを用いた3次元再構成において,過渡的障害を頑健に除去する新しいフレームワークT-3DGSを提案する。
論文 参考訳(メタデータ) (2024-11-29T07:45:24Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - LiDAR-Based 3D Object Detection via Hybrid 2D Semantic Scene Generation [38.38852904444365]
本稿では,2次元空間における3次元環境のセマンティクスと幾何学の両方をエンコードするシーン表現を提案する。
私たちのシンプルで効果的なデザインは、ほとんどの最先端の3Dオブジェクト検出器に簡単に統合できます。
論文 参考訳(メタデータ) (2023-04-04T04:05:56Z) - Elevation Estimation-Driven Building 3D Reconstruction from Single-View
Remote Sensing Imagery [20.001807614214922]
リモートセンシング画像からの3D再構築は、スマートシティやフォトグラムなどの分野に幅広い応用がある。
入力単視点リモートセンシング画像から3次元ビルディングモデルを再構築するための効率的なDSM推定駆動再構築フレームワーク(Building3D)を提案する。
我々のビル3Dは高度予測のためのSFFDEネットワークに根ざし、マスク構築のためのビル抽出ネットワークと同期し、点雲再構成、表面再構成(シティGMLモデル再構成)を順次実施する。
論文 参考訳(メタデータ) (2023-01-11T17:20:30Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。