論文の概要: Towards Large-scale Building Attribute Mapping using Crowdsourced
Images: Scene Text Recognition on Flickr and Problems to be Solved
- arxiv url: http://arxiv.org/abs/2309.08042v1
- Date: Thu, 14 Sep 2023 22:02:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 16:33:52.688894
- Title: Towards Large-scale Building Attribute Mapping using Crowdsourced
Images: Scene Text Recognition on Flickr and Problems to be Solved
- Title(参考訳): クラウドソーシング画像を用いた大規模建築属性マッピングに向けて:Flickr上のシーンテキスト認識と解決すべき課題
- Authors: Yao Sun, Anna Kruspe, Liqiu Meng, Yifan Tian, Eike J Hoffmann, Stefan
Auer, Xiao Xiang Zhu
- Abstract要約: 本研究は,属性マッピング構築のためのクラウドソーシングストリートビュー画像にシーンテキスト認識を適用する際の課題に対処する。
Berlin Flickrデータセットが作成され、事前トレーニングされたSTRモデルがテキストの検出と認識に使用される。
STRの結果と建築機能との相関について検討し, 住宅ではテキストが認識されるが, 商業では認識されない事例を分析した。
- 参考スコア(独自算出の注目度): 16.272425120319095
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Crowdsourced platforms provide huge amounts of street-view images that
contain valuable building information. This work addresses the challenges in
applying Scene Text Recognition (STR) in crowdsourced street-view images for
building attribute mapping. We use Flickr images, particularly examining texts
on building facades. A Berlin Flickr dataset is created, and pre-trained STR
models are used for text detection and recognition. Manual checking on a subset
of STR-recognized images demonstrates high accuracy. We examined the
correlation between STR results and building functions, and analysed instances
where texts were recognized on residential buildings but not on commercial
ones. Further investigation revealed significant challenges associated with
this task, including small text regions in street-view images, the absence of
ground truth labels, and mismatches in buildings in Flickr images and building
footprints in OpenStreetMap (OSM). To develop city-wide mapping beyond urban
hotspot locations, we suggest differentiating the scenarios where STR proves
effective while developing appropriate algorithms or bringing in additional
data for handling other cases. Furthermore, interdisciplinary collaboration
should be undertaken to understand the motivation behind building photography
and labeling. The STR-on-Flickr results are publicly available at
https://github.com/ya0-sun/STR-Berlin.
- Abstract(参考訳): クラウドソーシングプラットフォームは、貴重な建築情報を含む膨大なストリートビューイメージを提供する。
本研究は,属性マッピング構築のためのクラウドソーシングストリートビュー画像にScene Text Recognition(STR)を適用する際の課題に対処する。
私たちはFlickrの画像、特に建築ファサードのテキストを調べています。
Berlin Flickrデータセットが作成され、事前トレーニングされたSTRモデルがテキストの検出と認識に使用される。
STR認識画像のサブセットのマニュアルチェックは高い精度を示す。
STRの結果と建築機能との関係について検討し, 住宅ではテキストが認識されたが商業では認識されなかった事例を分析した。
さらに、ストリートビュー画像の小さなテキスト領域、地上の真実ラベルの欠如、Flickr画像の建物におけるミスマッチ、OpenStreetMap(OSM)の建築フットプリントなど、このタスクに関連する重要な課題が明らかになった。
都市ホットスポット以外の都市全体のマッピングを開発するために、STRが適切なアルゴリズムを開発しながら有効であることを証明したり、他のケースを扱うための追加データを持ち込んだりするシナリオを区別することを提案する。
さらに,写真作成とラベル付けの背景にある動機を理解するために,学際的な連携を行う必要がある。
STR-on-Flickrの結果はhttps://github.com/ya0-sun/STR-Berlin.comで公開されている。
関連論文リスト
- ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - RSBuilding: Towards General Remote Sensing Image Building Extraction and Change Detection with Foundation Model [22.56227565913003]
本稿では、基礎モデルの観点から、RSBuildingと呼ばれる総合的なリモートセンシング画像構築モデルを提案する。
RSBuildingはクロスシーンの一般化とタスク理解を強化するように設計されている。
我々のモデルは最大245,000の画像からなるデータセットでトレーニングされ、複数のビルの抽出と変更検出データセットで検証された。
論文 参考訳(メタデータ) (2024-03-12T11:51:59Z) - There is a Time and Place for Reasoning Beyond the Image [63.96498435923328]
画像は人間の目へのピクセルだけでなく、他のソースからのコンテキスト情報から推論、関連付け、推論して、推論することで、より完全な画像を確立することができる。
我々は、ニューヨーク・タイムズ(NYT)から自動的に抽出された16k画像と関連するニュース、時間、位置のデータセットTARAと、WITから離れた監視対象として追加で61k例を紹介した。
我々は、最先端のジョイントモデルと人間のパフォーマンスの間に70%のギャップがあることを示し、これは、セグメントワイズ推論を用いて高レベルな視覚言語ジョイントモデルを動機づける提案モデルによってわずかに満たされている。
論文 参考訳(メタデータ) (2022-03-01T21:52:08Z) - Using Social Media Images for Building Function Classification [12.99941371793082]
本研究では,大規模なソーシャルメディア画像データセットから高品質で地上レベルの画像を得るためのフィルタリングパイプラインを提案する。
われわれの方法では、世界中の42都市から2800万枚以上の画像で、文化的に多様なソーシャルメディアデータセットをFlickrから分析する。
微細調整された最先端アーキテクチャは、フィルタ画像上でF1スコアを最大0.51まで生成する。
論文 参考訳(メタデータ) (2022-02-15T11:05:10Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - TMBuD: A dataset for urban scene building detection [0.0]
本稿では,都市景観における人造構造物の画像処理に適したデータセットソリューションTMBuDを提案する。
提案したデータセットは、建物の街路ビューに焦点をあてた画像の健全なエッジとセマンティックセグメンテーションの適切な評価を可能にする。
このデータセットは、ルーマニアのティミショアラから160枚の建物を撮影したもので、解像度は768 x 1024ピクセルである。
論文 参考訳(メタデータ) (2021-10-27T17:08:11Z) - Mapping Vulnerable Populations with AI [23.732584273099054]
構築機能は、例えばツイートや地上画像などのソーシャルメディアデータを解析することで検索される。
これらの付加属性を付加したマップの構築により、より正確な人口密度マップを導出することができる。
論文 参考訳(メタデータ) (2021-07-29T15:52:11Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z) - Bounding Boxes Are All We Need: Street View Image Classification via
Context Encoding of Detected Buildings [7.1235778791928634]
「Detector-Encoder-Classifier」フレームワークが提案されている。
BEAUTY"データセットは、ストリートビューイメージの分類だけでなく、マルチクラスのビルディング検出にも利用できる。
論文 参考訳(メタデータ) (2020-10-03T08:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。