論文の概要: OpenFACADES: An Open Framework for Architectural Caption and Attribute Data Enrichment via Street View Imagery
- arxiv url: http://arxiv.org/abs/2504.02866v1
- Date: Tue, 01 Apr 2025 08:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:29.049716
- Title: OpenFACADES: An Open Framework for Architectural Caption and Attribute Data Enrichment via Street View Imagery
- Title(参考訳): OpenFACADES: ストリートビューイメージによるアーキテクチャのカプセル化と属性データ強化のためのオープンフレームワーク
- Authors: Xiucheng Liang, Jinheng Xie, Tianhong Zhao, Rudi Stouffs, Filip Biljecki,
- Abstract要約: 建築特性は空間データ基盤において重要な役割を担い、エネルギーシミュレーション、リスク評価、環境モデリングなどの応用を支援する。
近年の進歩により、リモートセンシングとストリートレベルの画像を用いた客観的建物属性の抽出とタグ付けが可能になった。
この研究は,クラウドソースデータを活用したオープンなフレームワークであるOpenFACADESを導入して,そのギャップを埋めるものである。
- 参考スコア(独自算出の注目度): 4.33299613844962
- License:
- Abstract: Building properties, such as height, usage, and material composition, play a crucial role in spatial data infrastructures, supporting applications such as energy simulation, risk assessment, and environmental modeling. Despite their importance, comprehensive and high-quality building attribute data remain scarce in many urban areas. Recent advances have enabled the extraction and tagging of objective building attributes using remote sensing and street-level imagery. However, establishing a method and pipeline that integrates diverse open datasets, acquires holistic building imagery at scale, and infers comprehensive building attributes remains a significant challenge. Among the first, this study bridges the gaps by introducing OpenFACADES, an open framework that leverages multimodal crowdsourced data to enrich building profiles with both objective attributes and semantic descriptors through multimodal large language models. Our methodology proceeds in three major steps. First, we integrate street-level image metadata from Mapillary with OpenStreetMap geometries via isovist analysis, effectively identifying images that provide suitable vantage points for observing target buildings. Second, we automate the detection of building facades in panoramic imagery and tailor a reprojection approach to convert objects into holistic perspective views that approximate real-world observation. Third, we introduce an innovative approach that harnesses and systematically investigates the capabilities of open-source large vision-language models (VLMs) for multi-attribute prediction and open-vocabulary captioning in building-level analytics, leveraging a globally sourced dataset of 30,180 labeled images from seven cities. Evaluation shows that fine-tuned VLM excel in multi-attribute inference, outperforming single-attribute computer vision models and zero-shot ChatGPT-4o.
- Abstract(参考訳): 高さ, 使用量, 材料組成などの建築特性は, 空間データ基盤において重要な役割を担い, エネルギーシミュレーション, リスク評価, 環境モデリングなどの応用を支援している。
その重要性にもかかわらず、包括的で高品質な建物属性データは、多くの都市部でほとんど残っていない。
近年の進歩により、リモートセンシングとストリートレベルの画像を用いた客観的建物属性の抽出とタグ付けが可能になった。
しかし、多様なオープンデータセットを統合し、大規模に総合的なビルディングイメージを取得し、包括的なビルディング属性を推測する手法とパイプラインを確立することは、依然として大きな課題である。
オープンなフレームワークであるOpenFACADESを導入することにより,マルチモーダルな大規模言語モデルを通じて,目的属性と意味記述子の両方で構築プロファイルを充実させる。
私たちの方法論は3つの大きなステップで進みます。
まず,Mapillaryの街路レベルの画像メタデータとOpenStreetMapのジオメトリをアイソビスト分析により統合し,対象建物を観測するのに適切なベタージュポイントを提供するイメージを効果的に同定する。
第2に, パノラマ画像におけるファサードの自動検出と, オブジェクトを実世界の観測を近似する全体論的な視点の視点に変換するための再投影手法を提案する。
第三に、ビルレベルの分析において、多属性予測とオープン語彙キャプションのためのオープンソースの大規模視覚言語モデル(VLM)の機能を活用し、体系的に研究する革新的なアプローチを導入する。
評価の結果,微調整VLMはマルチ属性推論,シングル属性コンピュータビジョンモデル,ゼロショットChatGPT-4oで優れていた。
関連論文リスト
- Exploiting Semantic Scene Reconstruction for Estimating Building Envelope Characteristics [6.382787013075262]
2次元画像入力から幾何構造特性を推定する新しいフレームワークであるBuildNet3Dを提案する。
本フレームワークは, 窓面間比と建物のフットプリントの推定において, 高い精度と一般化性を示すとともに, 様々な複雑な建築物構造について評価する。
論文 参考訳(メタデータ) (2024-10-29T13:29:01Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Fine-Grained Building Function Recognition from Street-View Images via Geometry-Aware Semi-Supervised Learning [18.432786227782803]
細粒度建物機能認識のための幾何対応半教師付きフレームワークを提案する。
半教師あり学習における擬似ラベルの精度を高めるために,マルチソースデータ間の幾何学的関係を利用する。
提案手法は, 建築物のきめ細かい機能認識において, 優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-18T12:48:48Z) - CMAB: A First National-Scale Multi-Attribute Building Dataset in China Derived from Open Source Data and GeoAI [1.3586572110652484]
本稿では,3,667の空間都市,2,900万の建物,213億平方メートルの屋上を対象とする全国規模のマルチアトリビュート・ビルディング・データセット(CMAB)について述べる。
何十億もの高解像度のGoogle Earth画像と6000万のストリートビュー画像(SVI)を使って、各ビルの屋上、高さ、機能、年齢、品質特性を生成しました。
我々のデータセットと結果は、グローバルSDGと都市計画にとって不可欠である。
論文 参考訳(メタデータ) (2024-08-12T02:09:25Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - Building Extraction from Remote Sensing Images via an Uncertainty-Aware
Network [18.365220543556113]
ビルの抽出は、都市計画や都市動態モニタリングなど、多くの応用において重要な役割を担っている。
本稿では,この問題を緩和するために,新規で簡単なUncertainty-Aware Network(UANet)を提案する。
その結果、提案したUANetは、他の最先端アルゴリズムよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-07-23T12:42:15Z) - Semi-supervised Learning from Street-View Images and OpenStreetMap for
Automatic Building Height Estimation [59.6553058160943]
本稿では,Mapillary SVIとOpenStreetMapのデータから建物の高さを自動的に推定する半教師付き学習(SSL)手法を提案する。
提案手法は, 平均絶対誤差(MAE)が約2.1mである建物の高さを推定する上で, 明らかな性能向上につながる。
予備結果は,低コストなVGIデータに基づく提案手法のスケールアップに向けた今後の取り組みを期待し,動機づけるものである。
論文 参考訳(メタデータ) (2023-07-05T18:16:30Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。