論文の概要: Fine-Grained Building Function Recognition from Street-View Images via Geometry-Aware Semi-Supervised Learning
- arxiv url: http://arxiv.org/abs/2408.09460v2
- Date: Wed, 28 Aug 2024 03:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 18:22:33.513725
- Title: Fine-Grained Building Function Recognition from Street-View Images via Geometry-Aware Semi-Supervised Learning
- Title(参考訳): 幾何学的半教師付き学習によるストリートビュー画像からの細粒度建物機能認識
- Authors: Weijia Li, Jinhua Yu, Dairong Chen, Yi Lin, Runmin Dong, Xiang Zhang, Conghui He, Haohuan Fu,
- Abstract要約: 本稿では,細粒度建物機能認識のための幾何学的半教師付き手法を提案する。
この手法は多ソースデータ間の幾何学的関係を利用して擬似ラベルの精度を向上させる。
提案手法は, 建築物のきめ細かい機能認識において, 優れた性能を示す。
- 参考スコア(独自算出の注目度): 18.432786227782803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a geometry-aware semi-supervised method for fine-grained building function recognition. This method leverages the geometric relationships between multi-source data to improve the accuracy of pseudo labels in semi-supervised learning, extending the task's scope and making it applicable to cross-categorization systems of building function recognition. Firstly, we design an online semi-supervised pre-training stage, which facilitates the precise acquisition of building facade location information in street-view images. In the second stage, we propose a geometry-aware coarse annotation generation module. This module effectively combines GIS data and street-view data based on the geometric relationships, improving the accuracy of pseudo annotations. In the third stage, we combine the newly generated coarse annotations with the existing labeled dataset to achieve fine-grained functional recognition of buildings across multiple cities at a large scale. Extensive experiments demonstrate that our proposed framework exhibits superior performance in fine-grained functional recognition of buildings. Within the same categorization system, it achieves improvements of 7.6% and 4.8% compared to fully-supervised methods and state-of-the-art semi-supervised methods, respectively. Additionally, our method also performs well in cross-city tasks, i.e., extending the model trained on OmniCity (New York) to new areas (i.e., Los Angeles and Boston). This study provides a novel solution for the fine-grained function recognition of large-scale buildings across multiple cities, offering essential data for understanding urban infrastructure planning, human activity patterns, and the interactions between humans and buildings.
- Abstract(参考訳): 本研究では,細粒度建物機能認識のための幾何学的半教師付き手法を提案する。
本手法は,多元データ間の幾何学的関係を利用して,半教師付き学習における擬似ラベルの精度を向上し,課題の範囲を拡大し,ビルディング関数認識のクロスカテゴリ化システムに適用できるようにする。
まず,ストリートビュー画像におけるファサード情報の正確な取得を容易にするオンライン半教師付き事前学習ステージを設計する。
第2段階では,幾何対応の粗いアノテーション生成モジュールを提案する。
このモジュールは、幾何学的関係に基づくGISデータとストリートビューデータを効果的に組み合わせ、擬似アノテーションの精度を向上させる。
第3段階では、新たに生成された粗いアノテーションを既存のラベル付きデータセットと組み合わせ、大規模に複数の都市にまたがる建物のきめ細かい機能認識を実現する。
大規模実験により,提案手法は建物の微細な機能認識において優れた性能を示すことが示された。
同じ分類体系内では、完全に監督された方法と最先端の半監督された方法と比較して、それぞれ7.6%と4.8%の改善が達成されている。
さらに,OmniCity(ニューヨーク)で訓練されたモデルを新たな地域(ロサンゼルス,ボストンなど)に拡張するなど,都市横断作業でも良好に機能する。
本研究は, 都市インフラ計画, 人的活動パターン, 人間と建物間の相互作用を理解するための重要なデータを提供するため, 複数の都市にまたがる大規模建築物の詳細な機能認識のための新しいソリューションを提供する。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Human as Points: Explicit Point-based 3D Human Reconstruction from
Single-view RGB Images [78.56114271538061]
我々はHaPと呼ばれる明示的なポイントベース人間再構築フレームワークを導入する。
提案手法は,3次元幾何学空間における完全明示的な点雲推定,操作,生成,洗練が特徴である。
我々の結果は、完全に明示的で幾何学中心のアルゴリズム設計へのパラダイムのロールバックを示すかもしれない。
論文 参考訳(メタデータ) (2023-11-06T05:52:29Z) - TFNet: Tuning Fork Network with Neighborhood Pixel Aggregation for
Improved Building Footprint Extraction [11.845097068829551]
深層セマンティックセグメンテーションのための新しいチューニングフォークネットワーク(TFNet)の設計を提案する。
TFNetの設計は、トレーニングプロセス中にタイル境界に周辺情報を組み込む新しい手法と組み合わせられている。
パフォーマンス比較では、SpaceNet2とWHUのデータセットと、密接な接続された建物をキャプチャするパキスタンのラホールのエリアからのデータセットを使用します。
論文 参考訳(メタデータ) (2023-11-05T10:52:16Z) - Multi-task deep learning for large-scale building detail extraction from
high-resolution satellite imagery [13.544826927121992]
MT-BR(Multi-task Building Refiner)は、衛星画像から構築の詳細を同時抽出するための適応型ニューラルネットワークである。
大規模アプリケーションでは,限定的だが代表的画像サンプルを戦略的に選択する新しい空間サンプリング方式を考案する。
MT-BRは、様々なメトリクスをまたいだ詳細の構築において、他の最先端の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2023-10-29T04:43:30Z) - Unsupervised Semantic Segmentation Through Depth-Guided Feature Correlation and Sampling [14.88236554564287]
本研究では,シーンの構造に関する情報を学習プロセスに組み込むことにより,教師なし学習の進歩を構築する。
本研究では,(1)特徴マップと深度マップを空間的に相関させて深度-特徴相関を学習し,シーンの構造に関する知識を誘導する。
次に,シーンの深度情報に対する3次元サンプリング技術を利用して,より効果的に特徴を抽出するために,最遠点サンプリングを実装した。
論文 参考訳(メタデータ) (2023-09-21T11:47:01Z) - Semi-supervised Learning from Street-View Images and OpenStreetMap for
Automatic Building Height Estimation [59.6553058160943]
本稿では,Mapillary SVIとOpenStreetMapのデータから建物の高さを自動的に推定する半教師付き学習(SSL)手法を提案する。
提案手法は, 平均絶対誤差(MAE)が約2.1mである建物の高さを推定する上で, 明らかな性能向上につながる。
予備結果は,低コストなVGIデータに基づく提案手法のスケールアップに向けた今後の取り組みを期待し,動機づけるものである。
論文 参考訳(メタデータ) (2023-07-05T18:16:30Z) - Inferring High-level Geographical Concepts via Knowledge Graph and
Multi-scale Data Integration: A Case Study of C-shaped Building Pattern
Recognition [23.13018761290839]
建築パターン認識は,都市形態の理解,地図の一般化の自動化,3次元都市モデルの可視化に重要である。
既存の研究の多くは、視覚知覚規則と近接グラフモデルに基づくオブジェクト非依存の手法を用いてパターンを抽出している。
知識グラフを用いて,C字型建築パターンの認識に着目したマルチスケールデータを統合する。
論文 参考訳(メタデータ) (2023-04-19T03:03:50Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - FloorLevel-Net: Recognizing Floor-Level Lines with
Height-Attention-Guided Multi-task Learning [49.30194762653723]
本研究は, 教師付き深層学習手法を用いて, ストリートビュー画像中のフロアレベル線の位置を求める問題に対処する。
まず、新しいデータセットをコンパイルし、トレーニングサンプルを合成する新しいデータ拡張スキームを開発する。
次にFloorLevel-Netを設計する。FloorLevel-Netは、ファサードと暗黙のフロアレベルラインの明示的な特徴を関連付けるマルチタスク学習ネットワークである。
論文 参考訳(メタデータ) (2021-07-06T08:17:59Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。