論文の概要: Synthetic Map Generation to Provide Unlimited Training Data for
Historical Map Text Detection
- arxiv url: http://arxiv.org/abs/2112.06104v1
- Date: Sun, 12 Dec 2021 00:27:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 09:12:15.410398
- Title: Synthetic Map Generation to Provide Unlimited Training Data for
Historical Map Text Detection
- Title(参考訳): 履歴地図テキスト検出のための無制限学習データを提供する合成地図生成
- Authors: Zekun Li, Runyu Guan, Qianmu Yu, Yao-Yi Chiang and Craig A. Knoblock
- Abstract要約: そこで本研究では,テキスト検出モデルのトレーニングのために,注釈付き歴史地図画像の無限量の自動生成手法を提案する。
我々は,現在最先端のテキスト検出モデルが,合成歴史地図の恩恵を受けることを示す。
- 参考スコア(独自算出の注目度): 5.872532529455414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many historical map sheets are publicly available for studies that require
long-term historical geographic data. The cartographic design of these maps
includes a combination of map symbols and text labels. Automatically reading
text labels from map images could greatly speed up the map interpretation and
helps generate rich metadata describing the map content. Many text detection
algorithms have been proposed to locate text regions in map images
automatically, but most of the algorithms are trained on out-ofdomain datasets
(e.g., scenic images). Training data determines the quality of machine learning
models, and manually annotating text regions in map images is labor-extensive
and time-consuming. On the other hand, existing geographic data sources, such
as Open- StreetMap (OSM), contain machine-readable map layers, which allow us
to separate out the text layer and obtain text label annotations easily.
However, the cartographic styles between OSM map tiles and historical maps are
significantly different. This paper proposes a method to automatically generate
an unlimited amount of annotated historical map images for training text
detection models. We use a style transfer model to convert contemporary map
images into historical style and place text labels upon them. We show that the
state-of-the-art text detection models (e.g., PSENet) can benefit from the
synthetic historical maps and achieve significant improvement for historical
map text detection.
- Abstract(参考訳): 多くの歴史地図は、長期の地理的データを必要とする研究のために公開されている。
これらの地図のデザインは地図記号とテキストラベルの組み合わせを含んでいる。
地図画像からテキストラベルを自動的に読み取ることは、地図解釈を大幅にスピードアップさせ、地図コンテンツを記述するリッチなメタデータを生成するのに役立つ。
多くのテキスト検出アルゴリズムは、自動的に地図画像中のテキスト領域を見つけるために提案されているが、ほとんどのアルゴリズムはドメイン外のデータセット(例えば、景色画像)で訓練されている。
トレーニングデータは機械学習モデルの品質を判断し、マップイメージのテキスト領域に手動で注釈を付けることは、労力と時間がかかります。
一方,Open-StreetMap (OSM) のような既存の地理的データソースにはマシン可読なマップ層が含まれており,テキスト層を分離し,テキストラベルアノテーションを容易に取得することができる。
しかし,OSM地図タイルと歴史的地図との地図形式は著しく異なる。
本稿では,テキスト検出モデルのトレーニングのために,注釈付き歴史地図画像の無限量の自動生成手法を提案する。
現代の地図画像を歴史的スタイルに変換し,テキストラベルを配置するために,スタイル転送モデルを用いる。
最新のテキスト検出モデル(例えば、psenet)は、合成歴史地図の利点を享受でき、歴史的地図テキスト検出の大幅な改善が達成できることを示す。
関連論文リスト
- An Efficient System for Automatic Map Storytelling -- A Case Study on Historical Maps [11.037615422309296]
歴史地図は、過去の貴重な情報と知識を提供する。
しばしば非標準的な投影、手描きのスタイル、芸術的要素を特徴としているため、非専門家がそれらを識別し解釈することは困難である。
既存の画像キャプション手法は、自然画像において顕著な成功を収めており、地図上でのパフォーマンスは、事前学習過程において地図が不足しているため、最適以下である。
テキスト認識や地図キャプションにおけるGPT-4の最近の進歩にもかかわらず、地図内のテキストが欠落したり不正確になったりした場合のパフォーマンスが低下するため、地図に対する理解は限られている。
意味のある字幕のみを生成する新しい決定木アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-21T08:45:26Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - CartoMark: a benchmark dataset for map pattern recognition and 1 map
content retrieval with machine intelligence [9.652629004863364]
我々は,地図テキストアノテーション認識,地図シーン分類,地図超解像再構成,地図スタイル転送のための大規模ベンチマークデータセットを開発した。
これらの良好なラベル付きデータセットは、マップ特徴の検出、マップパターン認識、マップコンテンツ検索を行う最先端のマシンインテリジェンス技術を促進する。
論文 参考訳(メタデータ) (2023-12-14T01:54:38Z) - The mapKurator System: A Complete Pipeline for Extracting and Linking
Text from Historical Maps [7.209761597734092]
mapKuratorは、マシンラーニングモデルと包括的なデータ処理パイプラインを統合するエンドツーエンドシステムである。
我々はmapKuratorシステムをデプロイし、David Rumsey Historical Mapコレクションに6万以上の地図と1億以上のテキスト/場所名の処理を可能にしました。
論文 参考訳(メタデータ) (2023-06-29T16:05:40Z) - SNAP: Self-Supervised Neural Maps for Visual Positioning and Semantic
Understanding [57.108301842535894]
我々は、地上と頭上の画像からリッチなニューラル2Dマップを学習するディープネットワークSNAPを紹介する。
我々は、異なる入力から推定されるニューラルマップの整列をトレーニングし、何千万ものストリートビュー画像のカメラポーズでのみ監視する。
SNAPは、従来の手法の範囲を超えて、挑戦的な画像クエリの場所を解決できる。
論文 参考訳(メタデータ) (2023-06-08T17:54:47Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - An Automatic Approach for Generating Rich, Linked Geo-Metadata from
Historical Map Images [6.962949867017594]
本稿では,歴史地図画像の検索と索引付けの現実的問題に対処するエンド・ツー・エンドのアプローチを提案する。
我々はmapKuratorと呼ばれるシステムでこのアプローチを実装した。
論文 参考訳(メタデータ) (2021-12-03T01:44:38Z) - MapReader: A Computer Vision Pipeline for the Semantic Exploration of
Maps at Scale [1.5894241142512051]
我々はMapReaderを紹介します。これはPythonで書かれたフリーのオープンソースソフトウェアライブラリで、大きなマップコレクション(スキャンまたは誕生デジタル)を解析します。
MapReaderを使えば、コンピュータビジョンの専門知識がほとんど、あるいは全くないユーザが、Webサーバ経由でマップを検索できる。
MapReaderパイプラインからの出力は他の外部データセットとどのようにリンクするかを示す。
論文 参考訳(メタデータ) (2021-11-30T17:37:01Z) - Semantic Image Alignment for Vehicle Localization [111.59616433224662]
単眼カメラからのセマンティックセグメンテーションを用いた高密度セマンティックマップにおける車両位置推定手法を提案する。
既存の視覚的ローカライゼーションアプローチとは対照的に、システムは追加のキーポイント機能、手作りのローカライゼーションランドマーク抽出器、高価なLiDARセンサーを必要としない。
論文 参考訳(メタデータ) (2021-10-08T14:40:15Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。