論文の概要: INSIGHT: Indoor Scene Intelligence from Geometric-Semantic Hierarchy Transfer for Public~Safety
- arxiv url: http://arxiv.org/abs/2604.23095v1
- Date: Sat, 25 Apr 2026 01:17:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.152475
- Title: INSIGHT: Indoor Scene Intelligence from Geometric-Semantic Hierarchy Transfer for Public~Safety
- Title(参考訳): INSIGHT: 公共のための幾何学的セマンティック階層移動からの屋内シーンインテリジェンス
- Authors: Alexander Nikitas Dimopoulos, Joseph Grasso, John Beltz,
- Abstract要約: 本稿では、登録RGB-Dデータを用いて、2次元画像理解を3次元距離空間に投影するパイプラインであるINSIGHTを提案する。
7つの共有クラスに対してポイントごとのラベル付け精度を報告し、コードでカプセル化されたデプロイ可能な推定値とともに、公開3Dベンチマークから欠落した15の安全クリティカルクラスに対する検出感度を報告した。
- 参考スコア(独自算出の注目度): 41.99844472131922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Indoor environments lack the spatial intelligence infrastructure that GPS provides outdoors; first responders arriving at unfamiliar buildings typically have no machine-readable map of safety equipment. Prior work on 3D semantic segmentation for public safety identified two barriers: scarcity of labeled indoor training data and poor recognition of small safety-critical features by native point-cloud methods. This paper presents INSIGHT, a zero-target-domain-annotation pipeline that projects 2D image understanding into 3D metric space via registered RGB-D data. Two interchangeable vision stacks share a common 3D back end: a SAM3 foundation-model stack for text-prompted segmentation, and a traditional CV stack (open-set detection, VQA, OCR) whose intermediate outputs are independently inspectable. Evaluated on all seven subareas of Stanford 2D-3D-S (70{,}496 images), the pipeline produces Pointcept-schema-compatible labeled point clouds and ISO~19164-compliant scene graphs with ${\sim}10^{4}{\times}$ compression; role-filtered payloads transmit in ${<}15$\,s at 1\,Mbps over FirstNet Band~14. We report per-point labeling accuracy on 7 shared classes, detection sensitivity for 15 safety-critical classes absent from public 3D benchmarks alongside code-capped deployable estimates, and inter-pipeline complementarity, demonstrating that 2D-to-3D semantic transfer addresses the labeled-data bottleneck while scene graphs provide building intelligence compact enough for field deployment.
- Abstract(参考訳): 屋内環境はGPSが屋外に提供する空間知能のインフラを欠いている。
公安のための3Dセマンティックセグメンテーションに関する以前の研究は、ラベル付き屋内トレーニングデータの不足と、ネイティブのポイントクラウドメソッドによる小さな安全クリティカルな特徴の認識の不足という2つの障壁を特定していた。
本稿では、登録RGB-Dデータを用いて、2次元画像理解を3次元距離空間に投影する、ゼロターゲットドメインアノテーションパイプラインであるINSIGHTを提案する。
テキストプロンプトセグメンテーションのためのSAM3基盤モデルスタックと、中間出力が独立して検査可能な従来のCVスタック(オープンセット検出、VQA、OCR)である。
このパイプラインは、Stanford 2D-3D-S (70{,}496 画像)の7つのサブ領域で評価され、Pointcept-schema互換のラベル付きポイントクラウドとISO~19164準拠のシーングラフを${\sim}10^{4}{\times}$圧縮で生成する。
我々は,7つの共有クラスにおけるポイントごとのラベル付け精度,コード付きデプロイ可能な推定値とともに,公開3Dベンチマークから欠落した15の安全クリティカルクラスの検出感度,および2D-to-3Dセマンティックトランスファーがラベル付きデータのボトルネックに対処し,シーングラフが現場配置に十分コンパクトな構築インテリジェンスを提供することを示す。
関連論文リスト
- Through the Perspective of LiDAR: A Feature-Enriched and Uncertainty-Aware Annotation Pipeline for Terrestrial Point Cloud Segmentation [5.173182375745059]
地上レーザー走査(TLS)点雲の正確なセマンティックセマンティックセマンティクスは、高価な手動アノテーションによって制限される。
球面投影,特徴強調,アンサンブル学習,ターゲットアノテーションを統合した半自動不確実性対応パイプラインを提案する。
提案手法は,2次元球面格子を投影し,マルチソース特徴量で画素を拡大し,擬似ラベルと不確実性マップを生成するためにセグメンテーションネットワークのアンサンブルを訓練する。
論文 参考訳(メタデータ) (2025-10-08T02:25:59Z) - Zero-shot Inexact CAD Model Alignment from a Single Image [53.37898107159792]
1つの画像から3Dシーン構造を推測する実践的なアプローチは、データベースから密に一致する3Dモデルを検索し、画像内のオブジェクトと整列させることである。
既存のメソッドは、イメージによる教師付きトレーニングとアノテーションのポーズに依存しており、オブジェクトカテゴリの狭いセットに制限されている。
ポーズアノテーションを必要とせず、未知のカテゴリに一般化する不正確な3次元モデルの弱い教師付き9-DoFアライメント法を提案する。
論文 参考訳(メタデータ) (2025-07-04T04:46:59Z) - Syn-to-Real Unsupervised Domain Adaptation for Indoor 3D Object Detection [50.448520056844885]
室内3次元物体検出における非教師なし領域適応のための新しいフレームワークを提案する。
合成データセット3D-FRONTから実世界のデータセットScanNetV2とSUN RGB-Dへの適応結果は、ソースオンリーベースラインよりも9.7%、9.1%のmAP25が顕著に改善されていることを示している。
論文 参考訳(メタデータ) (2024-06-17T08:18:41Z) - WildScenes: A Benchmark for 2D and 3D Semantic Segmentation in Large-scale Natural Environments [33.25040383298019]
$WildScenes$は、高解像度の2Dイメージと高密度の3D LiDARポイントクラウドで構成されるバイモーダルベンチマークデータセットである。
データは軌道中心であり、正確なローカライゼーションとグローバルに整列した点雲がある。
我々の3Dセマンティックラベルは、人間の注釈付き2Dラベルを複数のビューから3Dポイントクラウドシーケンスに転送する効率的で自動化されたプロセスによって得られる。
論文 参考訳(メタデータ) (2023-12-23T22:27:40Z) - Towards Label-free Scene Understanding by Vision Foundation Models [87.13117617056004]
ネットワークがラベル付きデータなしで2Dおよび3D世界を理解できるようにするためのビジョン基盤モデルの可能性について検討する。
本稿では,CLIPとSAMの強度を利用して2次元ネットワークと3次元ネットワークを同時に監視するクロスモダリティ・ノイズ・スーパービジョン(CNS)手法を提案する。
我々の2Dネットワークと3Dネットワークは、ScanNet上で28.4%と33.5%のmIoUでラベルなしセマンティックセグメンテーションを実現し、それぞれ4.7%と7.9%を改善した。
論文 参考訳(メタデータ) (2023-06-06T17:57:49Z) - WiCluster: Passive Indoor 2D/3D Positioning using WiFi without Precise
Labels [0.0]
我々は、無線周波数(RF)チャネル状態情報(CSI)を用いた受動的屋内位置決めのための新しい機械学習(ML)アプローチであるWiClusterを紹介する。
WiClusterは、トレーニング中に正確な位置ラベルを使わずに、ゾーンレベルの位置と正確な2Dまたは3D位置の両方を予測することができる。
論文 参考訳(メタデータ) (2021-05-31T12:09:46Z) - 3D Spatial Recognition without Spatially Labeled 3D [127.6254240158249]
Weakly-supervised framework for Point cloud Recognitionを紹介する。
We show that WyPR can detected and segment objects in point cloud data without access any space labels at training time。
論文 参考訳(メタデータ) (2021-05-13T17:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。