論文の概要: LIGHT: Multi-Modal Text Linking on Historical Maps
- arxiv url: http://arxiv.org/abs/2506.22589v1
- Date: Fri, 27 Jun 2025 19:18:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.475571
- Title: LIGHT: Multi-Modal Text Linking on Historical Maps
- Title(参考訳): LIGHT: 歴史的地図にリンクするマルチモーダルテキスト
- Authors: Yijun Lin, Rhett Olson, Junhan Wu, Yao-Yi Chiang, Jerod Weinman,
- Abstract要約: 光は、歴史的地図上のテキストをリンクするための言語的、画像的、幾何学的特徴を統合する、新しいマルチモーダルアプローチである。
ICDAR 2024/2025 MapTextコンペティションのデータでは、既存のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 1.8399976559754367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text on historical maps provides valuable information for studies in history, economics, geography, and other related fields. Unlike structured or semi-structured documents, text on maps varies significantly in orientation, reading order, shape, and placement. Many modern methods can detect and transcribe text regions, but they struggle to effectively ``link'' the recognized text fragments, e.g., determining a multi-word place name. Existing layout analysis methods model word relationships to improve text understanding in structured documents, but they primarily rely on linguistic features and neglect geometric information, which is essential for handling map text. To address these challenges, we propose LIGHT, a novel multi-modal approach that integrates linguistic, image, and geometric features for linking text on historical maps. In particular, LIGHT includes a geometry-aware embedding module that encodes the polygonal coordinates of text regions to capture polygon shapes and their relative spatial positions on an image. LIGHT unifies this geometric information with the visual and linguistic token embeddings from LayoutLMv3, a pretrained layout analysis model. LIGHT uses the cross-modal information to predict the reading-order successor of each text instance directly with a bi-directional learning strategy that enhances sequence robustness. Experimental results show that LIGHT outperforms existing methods on the ICDAR 2024/2025 MapText Competition data, demonstrating the effectiveness of multi-modal learning for historical map text linking.
- Abstract(参考訳): 歴史地図のテキストは、歴史、経済学、地理、その他の関連分野の研究に貴重な情報を提供する。
構造化文書や半構造化文書とは異なり、地図上のテキストは方向、読み順、形状、配置に大きく異なる。
現代の多くのメソッドはテキスト領域を検出して書き起こすことができるが、認識されたテキストフラグメント、例えばマルチワードの場所名を決定する 'link' を効果的に 'link' するのに苦労している。
既存のレイアウト分析手法は、構造化文書におけるテキスト理解を改善するために単語関係をモデル化するが、それらは主に言語的特徴に依存し、地図テキストを扱うのに不可欠な幾何学的情報を無視している。
これらの課題に対処するために,歴史地図上のテキストをリンクするための言語,画像,幾何学的特徴を統合する,新しいマルチモーダルアプローチであるLIGHTを提案する。
特に、LIGHTは、テキスト領域の多角形座標を符号化して、画像上のポリゴン形状とその相対的な空間位置をキャプチャする幾何学的認識の埋め込みモジュールを含む。
LIGHTはこの幾何学情報を、事前訓練されたレイアウト解析モデルであるLayoutLMv3の視覚的および言語的トークン埋め込みと統合する。
LIGHTは、クロスモーダル情報を使用して、シーケンスの堅牢性を高める双方向学習戦略で、各テキストインスタンスの読み込み順序を直接予測する。
実験の結果,ICDAR 2024/2025 MapTextコンペティションデータにおいて,LIGHTが既存の手法よりも優れており,過去の地図テキストリンクにおけるマルチモーダル学習の有効性が示された。
関連論文リスト
- Hyper-Local Deformable Transformers for Text Spotting on Historical Maps [2.423679070137552]
歴史地図のテキストには、地理、歴史的、政治的、文化的な文脈を提供する貴重な情報が含まれている。
従来のアプローチでは、特定のマップスタイルにのみ適合したアドホックなステップを使用していた。
最近の機械学習ベースのテキストスポッターは、これらの課題を解決する可能性を秘めている。
本稿では,歴史地図をスキャンするエンド・ツー・エンドテキストスポッターであるPALETTEを提案する。
論文 参考訳(メタデータ) (2025-06-17T22:41:10Z) - MapExplorer: New Content Generation from Low-Dimensional Visualizations [60.02149343347818]
低次元の可視化や「投影マップ」は大規模で複雑なデータセットの解釈に広く用いられている。
これらの視覚化は、既存の知識空間を理解するのに役立つだけでなく、未知の領域への探索を暗黙的にガイドする。
プロジェクションマップ内の座標をコヒーレントでコンテキストに整合したテキストコンテンツに変換する新しい知識発見タスクであるMapExplorerを紹介する。
論文 参考訳(メタデータ) (2024-12-24T20:16:13Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis [52.01356859448068]
HTSは画像中のテキストを認識し、文字、単語、行、段落の4段階の階層構造を識別することができる。
HTSは、複数の単語レベルのテキストスポッティングベンチマークデータセットと幾何学的レイアウト解析タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-10-25T22:23:54Z) - Synthetic Map Generation to Provide Unlimited Training Data for
Historical Map Text Detection [5.872532529455414]
そこで本研究では,テキスト検出モデルのトレーニングのために,注釈付き歴史地図画像の無限量の自動生成手法を提案する。
我々は,現在最先端のテキスト検出モデルが,合成歴史地図の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2021-12-12T00:27:03Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。