論文の概要: Using Social Media Images for Building Function Classification
- arxiv url: http://arxiv.org/abs/2202.07315v1
- Date: Tue, 15 Feb 2022 11:05:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 22:34:05.385669
- Title: Using Social Media Images for Building Function Classification
- Title(参考訳): ソーシャルメディア画像を用いた建築機能分類
- Authors: Eike Jens Hoffmann, Karam Abdulahhad, and Xiao Xiang Zhu
- Abstract要約: 本研究では,大規模なソーシャルメディア画像データセットから高品質で地上レベルの画像を得るためのフィルタリングパイプラインを提案する。
われわれの方法では、世界中の42都市から2800万枚以上の画像で、文化的に多様なソーシャルメディアデータセットをFlickrから分析する。
微細調整された最先端アーキテクチャは、フィルタ画像上でF1スコアを最大0.51まで生成する。
- 参考スコア(独自算出の注目度): 12.99941371793082
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Urban land use on a building instance level is crucial geo-information for
many applications, yet difficult to obtain. An intuitive approach to close this
gap is predicting building functions from ground level imagery. Social media
image platforms contain billions of images, with a large variety of motifs
including but not limited to street perspectives. To cope with this issue this
study proposes a filtering pipeline to yield high quality, ground level imagery
from large social media image datasets. The pipeline ensures that all resulting
images have full and valid geotags with a compass direction to relate image
content and spatial objects from maps.
We analyze our method on a culturally diverse social media dataset from
Flickr with more than 28 million images from 42 cities around the world. The
obtained dataset is then evaluated in a context of 3-classes building function
classification task. The three building classes that are considered in this
study are: commercial, residential, and other. Fine-tuned state-of-the-art
architectures yield F1-scores of up to 0.51 on the filtered images. Our
analysis shows that the performance is highly limited by the quality of the
labels obtained from OpenStreetMap, as the metrics increase by 0.2 if only
human validated labels are considered. Therefore, we consider these labels to
be weak and publish the resulting images from our pipeline together with the
buildings they are showing as a weakly labeled dataset.
- Abstract(参考訳): 建築物のインスタンスレベルでの土地利用は多くの用途において重要な地理情報であり、入手は困難である。
このギャップを閉じるための直感的なアプローチは、地上画像から建物機能を予測することである。
ソーシャルメディア画像プラットフォームには何十億もの画像が含まれており、様々なモチーフがあるが、ストリートパースペクティブに限定されない。
そこで本研究では,大規模なソーシャルメディア画像データセットから高品質で地上レベルの画像を得るフィルタリングパイプラインを提案する。
パイプラインは、すべての画像がコンパス方向の完全かつ有効なジオタグを持ち、地図からの画像の内容と空間オブジェクトを関連付けることを保証する。
われわれの方法では、世界中の42都市から2800万枚以上の画像で、文化的に多様なソーシャルメディアデータセットをFlickrから分析する。
得られたデータセットは、3クラス構築関数分類タスクのコンテキストで評価される。
この研究で考慮されている3つの建築クラスは、商業、住宅、その他である。
微細調整された最先端アーキテクチャでは、フィルタ画像上でF1スコアが最大0.51になる。
分析の結果,openstreetmap から得られるラベルの品質により,ヒトの検証ラベルのみを考慮すれば0.2%向上することが明らかとなった。
したがって、これらのラベルは弱いとみなし、パイプラインから得られた画像を、弱いラベル付きデータセットとして示す建物と共に公開する。
関連論文リスト
- GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Towards Large-scale Building Attribute Mapping using Crowdsourced
Images: Scene Text Recognition on Flickr and Problems to be Solved [16.272425120319095]
本研究は,属性マッピング構築のためのクラウドソーシングストリートビュー画像にシーンテキスト認識を適用する際の課題に対処する。
Berlin Flickrデータセットが作成され、事前トレーニングされたSTRモデルがテキストの検出と認識に使用される。
STRの結果と建築機能との相関について検討し, 住宅ではテキストが認識されるが, 商業では認識されない事例を分析した。
論文 参考訳(メタデータ) (2023-09-14T22:02:14Z) - Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文 参考訳(メタデータ) (2023-03-07T21:47:58Z) - Saliency Guided Contrastive Learning on Scene Images [71.07412958621052]
我々は、学習中のモデルの出力から導かれるサリエンシマップを活用し、差別的な領域を強調し、対照的な学習全体をガイドする。
提案手法は,画像上の自己教師学習の性能を,画像の線形評価において+1.1,+4.3,+2.2の精度で向上させる。
論文 参考訳(メタデータ) (2023-02-22T15:54:07Z) - Which country is this picture from? New data and methods for DNN-based
country recognition [33.73817899937691]
これまでの研究は主に、写真が撮影された場所のジオコーディネートの推定に焦点が当てられていた。
約400万枚の画像を含む新しいデータセットであるVIPPGeoデータセットを導入する。
このデータセットを用いて、国別認識問題を分類問題とするディープラーニングアーキテクチャを訓練する。
論文 参考訳(メタデータ) (2022-09-02T10:56:41Z) - There is a Time and Place for Reasoning Beyond the Image [63.96498435923328]
画像は人間の目へのピクセルだけでなく、他のソースからのコンテキスト情報から推論、関連付け、推論して、推論することで、より完全な画像を確立することができる。
我々は、ニューヨーク・タイムズ(NYT)から自動的に抽出された16k画像と関連するニュース、時間、位置のデータセットTARAと、WITから離れた監視対象として追加で61k例を紹介した。
我々は、最先端のジョイントモデルと人間のパフォーマンスの間に70%のギャップがあることを示し、これは、セグメントワイズ推論を用いて高レベルな視覚言語ジョイントモデルを動機づける提案モデルによってわずかに満たされている。
論文 参考訳(メタデータ) (2022-03-01T21:52:08Z) - Danish Airs and Grounds: A Dataset for Aerial-to-Street-Level Place
Recognition and Localization [9.834635805575584]
我々は,この事例を対象とする道路や航空画像の大規模な収集であるemphDanish Airs and Groundsデータセットにコントリビュートする。
データセットは、都市部、郊外部、農村部で50km以上の道路を含む、現在利用可能なデータよりも大きく、多様である。
そこで本研究では,まず空中画像から高密度な3次元再構成を推定し,検索したストリートレベルの画像と3次元モデルのストリートレベルのレンダリングをマッチングするマップ・ツー・イメージ再配置パイプラインを提案する。
論文 参考訳(メタデータ) (2022-02-03T19:58:09Z) - SensatUrban: Learning Semantics from Urban-Scale Photogrammetric Point
Clouds [52.624157840253204]
センサットウルバン(SensatUrban)は、イギリスの3都市から収集された7.6km2の30億点近くからなる、都市規模のUAV測光点クラウドデータセットである。
データセットの各ポイントは、粒度の細かいセマンティックアノテーションでラベル付けされ、その結果、既存の最大のフォトグラムポイントクラウドデータセットの3倍の大きさのデータセットが生成される。
論文 参考訳(メタデータ) (2022-01-12T14:48:11Z) - Towards Semantic Segmentation of Urban-Scale 3D Point Clouds: A Dataset,
Benchmarks and Challenges [52.624157840253204]
我々は、30億点近い注釈付きポイントを持つ都市規模の測光点クラウドデータセットを提示する。
私たちのデータセットは、イギリスの3つの都市からなり、都市の景観の約7.6km2をカバーしています。
我々は,データセット上での最先端アルゴリズムの性能を評価し,その結果を包括的に分析する。
論文 参考訳(メタデータ) (2020-09-07T14:47:07Z) - Google Landmarks Dataset v2 -- A Large-Scale Benchmark for
Instance-Level Recognition and Retrieval [9.922132565411664]
大規模できめ細かいインスタンス認識と画像検索のための新しいベンチマークであるGoogle Landmarks dataset v2(GLDv2)を紹介した。
GLDv2は、500万以上の画像と200万のインスタンスラベルを含む、これまでで最大のデータセットである。
ウィキメディア・コモンズ(Wikimedia Commons)は、世界最大のクラウドソースによるランドマーク写真コレクションである。
論文 参考訳(メタデータ) (2020-04-03T22:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。