論文の概要: Hyper-Local Deformable Transformers for Text Spotting on Historical Maps
- arxiv url: http://arxiv.org/abs/2506.15010v1
- Date: Tue, 17 Jun 2025 22:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.499264
- Title: Hyper-Local Deformable Transformers for Text Spotting on Historical Maps
- Title(参考訳): ヒストリカルマップ上でのテキストスポッティングのための超局所変形可能な変換器
- Authors: Yijun Lin, Yao-Yi Chiang,
- Abstract要約: 歴史地図のテキストには、地理、歴史的、政治的、文化的な文脈を提供する貴重な情報が含まれている。
従来のアプローチでは、特定のマップスタイルにのみ適合したアドホックなステップを使用していた。
最近の機械学習ベースのテキストスポッターは、これらの課題を解決する可能性を秘めている。
本稿では,歴史地図をスキャンするエンド・ツー・エンドテキストスポッターであるPALETTEを提案する。
- 参考スコア(独自算出の注目度): 2.423679070137552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text on historical maps contains valuable information providing georeferenced historical, political, and cultural contexts. However, text extraction from historical maps is challenging due to the lack of (1) effective methods and (2) training data. Previous approaches use ad-hoc steps tailored to only specific map styles. Recent machine learning-based text spotters (e.g., for scene images) have the potential to solve these challenges because of their flexibility in supporting various types of text instances. However, these methods remain challenges in extracting precise image features for predicting every sub-component (boundary points and characters) in a text instance. This is critical because map text can be lengthy and highly rotated with complex backgrounds, posing difficulties in detecting relevant image features from a rough text region. This paper proposes PALETTE, an end-to-end text spotter for scanned historical maps of a wide variety. PALETTE introduces a novel hyper-local sampling module to explicitly learn localized image features around the target boundary points and characters of a text instance for detection and recognition. PALETTE also enables hyper-local positional embeddings to learn spatial interactions between boundary points and characters within and across text instances. In addition, this paper presents a novel approach to automatically generate synthetic map images, SynthMap+, for training text spotters for historical maps. The experiment shows that PALETTE with SynthMap+ outperforms SOTA text spotters on two new benchmark datasets of historical maps, particularly for long and angled text. We have deployed PALETTE with SynthMap+ to process over 60,000 maps in the David Rumsey Historical Map collection and generated over 100 million text labels to support map searching. The project is released at https://github.com/kartta-foundation/mapkurator-palette-doc.
- Abstract(参考訳): 歴史地図のテキストには、地理、歴史的、政治的、文化的な文脈を提供する貴重な情報が含まれている。
しかし,(1)効果的な方法の欠如,(2)トレーニングデータがないため,歴史地図からのテキスト抽出は困難である。
従来のアプローチでは、特定のマップスタイルにのみ適合したアドホックなステップを使用していた。
最近の機械学習ベースのテキストスポッター(例:シーンイメージ)は、さまざまなタイプのテキストインスタンスをサポートする柔軟性のため、これらの課題を解決する可能性がある。
しかし、これらの手法はテキストインスタンス内のすべてのサブコンポーネント(境界点と文字)を予測するための正確な画像特徴を抽出する上で依然として課題である。
これは、地図テキストが複雑な背景を持つ長大かつ高度に回転できるためであり、粗いテキスト領域から関連画像の特徴を検出するのに困難である。
本稿では,多種多様な歴史地図をスキャンするエンド・ツー・エンドテキストスポッターであるPALETTEを提案する。
PALETTEは新しいハイパーローカルサンプリングモジュールを導入し、ターゲット境界点とテキストインスタンスの文字の周囲の局所化画像の特徴を明示的に学習し、検出と認識を行う。
PALETTEはまた、テキストインスタンス内およびテキストインスタンス間の境界点と文字間の空間的相互作用を学習する、超局所的な位置埋め込みを可能にする。
また,過去の地図のテキストスポッターを学習するための合成地図画像,SynthMap+を自動生成する手法を提案する。
この実験は、PALETTEとSynthMap+がSOTAテキストスポッターより優れていることを示す。
我々はPALETTEをSynthMap+でデプロイし、David Rumsey Historical Mapコレクションで6万以上のマップを処理し、地図検索をサポートするために1億以上のテキストラベルを生成しました。
このプロジェクトはhttps://github.com/kartta-foundation/mapkurator-palette-doc.comで公開されている。
関連論文リスト
- MapExplorer: New Content Generation from Low-Dimensional Visualizations [60.02149343347818]
低次元の可視化や「投影マップ」は大規模で複雑なデータセットの解釈に広く用いられている。
これらの視覚化は、既存の知識空間を理解するのに役立つだけでなく、未知の領域への探索を暗黙的にガイドする。
プロジェクションマップ内の座標をコヒーレントでコンテキストに整合したテキストコンテンツに変換する新しい知識発見タスクであるMapExplorerを紹介する。
論文 参考訳(メタデータ) (2024-12-24T20:16:13Z) - Region Prompt Tuning: Fine-grained Scene Text Detection Utilizing Region Text Prompt [10.17947324152468]
リージョンプロンプトチューニング手法は、領域テキストプロンプトを個々の文字に分解し、視覚特徴マップを領域視覚トークンに分割する。
これにより、文字はトークンの局所的な特徴と一致し、詳細な特徴やきめ細かいテキストが省略されるのを避けることができる。
提案手法は,画像テキストプロセスから得られた一般的なスコアマップと,文字とトークンのマッチングから得られた領域スコアマップを組み合わせる。
論文 参考訳(メタデータ) (2024-09-20T15:24:26Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - The mapKurator System: A Complete Pipeline for Extracting and Linking
Text from Historical Maps [7.209761597734092]
mapKuratorは、マシンラーニングモデルと包括的なデータ処理パイプラインを統合するエンドツーエンドシステムである。
我々はmapKuratorシステムをデプロイし、David Rumsey Historical Mapコレクションに6万以上の地図と1億以上のテキスト/場所名の処理を可能にしました。
論文 参考訳(メタデータ) (2023-06-29T16:05:40Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Expressive Text-to-Image Generation with Rich Text [42.923053338525804]
フォントスタイル,サイズ,色,フットノートなどのフォーマットをサポートするリッチテキストエディタを提案する。
それぞれの単語の属性をリッチテキストから抽出し、局所的なスタイル制御、明示的なトークン再重み付け、正確な色レンダリング、詳細な領域合成を可能にする。
論文 参考訳(メタデータ) (2023-04-13T17:59:55Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Synthetic Map Generation to Provide Unlimited Training Data for
Historical Map Text Detection [5.872532529455414]
そこで本研究では,テキスト検出モデルのトレーニングのために,注釈付き歴史地図画像の無限量の自動生成手法を提案する。
我々は,現在最先端のテキスト検出モデルが,合成歴史地図の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2021-12-12T00:27:03Z) - An Automatic Approach for Generating Rich, Linked Geo-Metadata from
Historical Map Images [6.962949867017594]
本稿では,歴史地図画像の検索と索引付けの現実的問題に対処するエンド・ツー・エンドのアプローチを提案する。
我々はmapKuratorと呼ばれるシステムでこのアプローチを実装した。
論文 参考訳(メタデータ) (2021-12-03T01:44:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。