論文の概要: Aerial Lifting: Neural Urban Semantic and Building Instance Lifting from Aerial Imagery
- arxiv url: http://arxiv.org/abs/2403.11812v1
- Date: Mon, 18 Mar 2024 14:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 20:10:10.231707
- Title: Aerial Lifting: Neural Urban Semantic and Building Instance Lifting from Aerial Imagery
- Title(参考訳): Aerial Lifting:Aerial Imageryによるニューラルアーバンセマンティックとビルのリフティング
- Authors: Yuqi Zhang, Guanying Chen, Jiaxing Chen, Shuguang Cui,
- Abstract要約: 航空画像から都市規模のセマンティックスとビルレベルのインスタンスセグメンテーションのためのニューラルラジアンスフィールド法を提案する。
都市空撮画像の物体は、建物、車、道路など、相当な大きさのバリエーションを示している。
我々は,様々な大きさのオブジェクトのセグメンテーションを強化する,スケール適応型セマンティックラベル融合戦略を導入する。
次に、2次元のインスタンスラベルにおける多視点不整合問題を緩和するために、新しいクロスビューインスタンスラベルグループ化戦略を導入する。
- 参考スコア(独自算出の注目度): 51.73680703579997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a neural radiance field method for urban-scale semantic and building-level instance segmentation from aerial images by lifting noisy 2D labels to 3D. This is a challenging problem due to two primary reasons. Firstly, objects in urban aerial images exhibit substantial variations in size, including buildings, cars, and roads, which pose a significant challenge for accurate 2D segmentation. Secondly, the 2D labels generated by existing segmentation methods suffer from the multi-view inconsistency problem, especially in the case of aerial images, where each image captures only a small portion of the entire scene. To overcome these limitations, we first introduce a scale-adaptive semantic label fusion strategy that enhances the segmentation of objects of varying sizes by combining labels predicted from different altitudes, harnessing the novel-view synthesis capabilities of NeRF. We then introduce a novel cross-view instance label grouping strategy based on the 3D scene representation to mitigate the multi-view inconsistency problem in the 2D instance labels. Furthermore, we exploit multi-view reconstructed depth priors to improve the geometric quality of the reconstructed radiance field, resulting in enhanced segmentation results. Experiments on multiple real-world urban-scale datasets demonstrate that our approach outperforms existing methods, highlighting its effectiveness.
- Abstract(参考訳): 本稿では,3次元にノイズの多い2次元ラベルを持ち上げることで,都市規模のセマンティックスとビルレベルのインスタンスセグメンテーションを実現するためのニューラルラジアンスフィールド手法を提案する。
これは2つの主な理由から難しい問題である。
第一に、都市空撮画像のオブジェクトは、建物、車、道路など、相当な大きさのバリエーションを示しており、正確な2Dセグメンテーションの課題となっている。
第2に,既存のセグメンテーション法によって生成された2Dラベルは,特に空中画像の場合,シーン全体のごく一部しか撮影できない場合,多視点不整合問題に悩まされる。
これらの制限を克服するために、我々はまず、異なる高度から予測されるラベルを組み合わせて、異なる大きさのオブジェクトのセグメンテーションを強化するスケール適応型セマンティックラベル融合戦略を導入し、NeRFの新規なビュー合成機能を活用する。
次に,2次元のインスタンスラベルにおける多視点不整合問題を緩和するために,3次元シーン表現に基づく新しいクロスビューインスタンスラベルグループ化戦略を導入する。
さらに,多視点再構成深度を生かして,再構成放射場の幾何学的品質を向上し,セグメンテーション結果が向上した。
複数の実世界の都市規模データセットの実験により、我々のアプローチは既存の手法よりも優れており、その有効性を強調している。
関連論文リスト
- Cross-modal and Cross-domain Knowledge Transfer for Label-free 3D
Segmentation [23.110443633049382]
本稿では,画像と点雲の関係を網羅的に探究することで,クロスモーダル・クロスドメイン適応に挑戦する新しい手法を提案する。
KITTI360 と GTA5 の知識を用いて,セマンティック KITTI 上の3次元クラウドセマンティックセマンティックセマンティックスセグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-19T14:29:57Z) - Vox-E: Text-guided Voxel Editing of 3D Objects [14.88446525549421]
大規模テキスト誘導拡散モデルが注目されているのは、多様な画像を合成できるためである。
本稿では,既存の3次元オブジェクトの編集に潜時拡散モデルのパワーを利用する手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T17:36:36Z) - Unsupervised Multi-View Object Segmentation Using Radiance Field
Propagation [55.9577535403381]
本稿では,未ラベルのシーンの多視点画像のみを考慮し,再構成中の3次元オブジェクトのセグメント化に新たなアプローチを提案する。
提案手法の核となるのは,2方向光度損失を持つ個々の物体の放射界に対する新しい伝搬戦略である。
我々の知る限り、RFPはニューラルレイディアンスフィールド(NeRF)のための3次元シーンオブジェクトセグメンテーションに取り組むための最初の教師なしアプローチである。
論文 参考訳(メタデータ) (2022-10-02T11:14:23Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Panoptic NeRF: 3D-to-2D Label Transfer for Panoptic Urban Scene
Segmentation [48.677336052620895]
そこで本研究では,画素ごとの2Dセマンティックスとインスタンスラベルの取得を目的とした,新しい3D-to-2Dラベル転送手法であるPanoptic NeRFを提案する。
3D空間内での推論と2Dラベルへのレンダリングにより、我々の2Dセマンティクスとインスタンスラベルは、設計によって複数ビューに一貫性がある。
論文 参考訳(メタデータ) (2022-03-29T04:16:40Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Learning 3D Semantic Segmentation with only 2D Image Supervision [18.785840615548473]
多視点融合を用いた2次元意味画像分割から派生した擬似ラベルから3次元モデルを訓練する。
提案するネットワークアーキテクチャである2D3DNetは,5大陸20都市で撮影されたライダーと画像を備えた新しい都市データセットの実験において,ベースラインよりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-10-21T17:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。