論文の概要: Detecting Legend Items on Historical Maps Using GPT-4o with In-Context Learning
- arxiv url: http://arxiv.org/abs/2510.08385v1
- Date: Thu, 09 Oct 2025 16:08:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.183762
- Title: Detecting Legend Items on Historical Maps Using GPT-4o with In-Context Learning
- Title(参考訳): 文脈学習によるGPT-4oを用いた歴史地図上の伝説項目の検出
- Authors: Sofia Kirsanova, Yao-Yi Chiang, Weiwei Duan,
- Abstract要約: 本稿では,レイアウト検出のためのLayoutLMv3と,テキスト内学習を用いたGPT-4oを組み合わせた手法を提案する。
実験の結果,構造化プロンプトを有するGPT-4は,88%のF-1,85%のIoUを達成し,ベースラインよりも優れていた。
このアプローチは、スケーラブルでレイアウト対応のレジェンド解析をサポートし、様々な視覚的スタイルにわたる歴史地図のインデックス化と検索性を改善する。
- 参考スコア(独自算出の注目度): 5.267675589648353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Historical map legends are critical for interpreting cartographic symbols. However, their inconsistent layouts and unstructured formats make automatic extraction challenging. Prior work focuses primarily on segmentation or general optical character recognition (OCR), with few methods effectively matching legend symbols to their corresponding descriptions in a structured manner. We present a method that combines LayoutLMv3 for layout detection with GPT-4o using in-context learning to detect and link legend items and their descriptions via bounding box predictions. Our experiments show that GPT-4 with structured JSON prompts outperforms the baseline, achieving 88% F-1 and 85% IoU, and reveal how prompt design, example counts, and layout alignment affect performance. This approach supports scalable, layout-aware legend parsing and improves the indexing and searchability of historical maps across various visual styles.
- Abstract(参考訳): 歴史的地図伝説は地図記号の解釈に重要である。
しかし、不整合レイアウトや非構造化フォーマットは自動抽出を困難にしている。
先行研究は、主にセグメンテーションや一般的な光学文字認識(OCR)に焦点を当てており、伝説のシンボルと対応する記述を構造化された方法で効果的にマッチングする方法はほとんどない。
本稿では,レイアウト検出のためのLayoutLMv3とGPT-4oを組み合わさった手法を提案する。
実験の結果,構造化JSONによるGPT-4は,88%のF-1と85%のIoUを達成し,設計,例数,レイアウトアライメントがパフォーマンスにどのように影響するかを明らかにした。
このアプローチは、スケーラブルでレイアウト対応のレジェンド解析をサポートし、様々な視覚的スタイルにわたる歴史地図のインデックス化と検索性を改善する。
関連論文リスト
- Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - Automated Label Placement on Maps via Large Language Models [3.7553323195283697]
データ編集問題としてタスクを定式化するALP(Automatic label Placement)の新たなパラダイムを導入する。
この方向を支援するため,実世界の地図上でALPを評価するためのベンチマークデータセットとして,MAPLEをキュレートした。
我々は,MAPLE 上で4つのオープンソース LLM を評価し,各種ランドマークの全体的な性能と一般化を解析した。
論文 参考訳(メタデータ) (2025-07-29T18:00:22Z) - Hyper-Local Deformable Transformers for Text Spotting on Historical Maps [2.423679070137552]
歴史地図のテキストには、地理、歴史的、政治的、文化的な文脈を提供する貴重な情報が含まれている。
従来のアプローチでは、特定のマップスタイルにのみ適合したアドホックなステップを使用していた。
最近の機械学習ベースのテキストスポッターは、これらの課題を解決する可能性を秘めている。
本稿では,歴史地図をスキャンするエンド・ツー・エンドテキストスポッターであるPALETTEを提案する。
論文 参考訳(メタデータ) (2025-06-17T22:41:10Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - An Efficient System for Automatic Map Storytelling -- A Case Study on Historical Maps [11.037615422309296]
歴史地図は、過去の貴重な情報と知識を提供する。
しばしば非標準的な投影、手描きのスタイル、芸術的要素を特徴としているため、非専門家がそれらを識別し解釈することは困難である。
既存の画像キャプション手法は、自然画像において顕著な成功を収めており、地図上でのパフォーマンスは、事前学習過程において地図が不足しているため、最適以下である。
テキスト認識や地図キャプションにおけるGPT-4の最近の進歩にもかかわらず、地図内のテキストが欠落したり不正確になったりした場合のパフォーマンスが低下するため、地図に対する理解は限られている。
意味のある字幕のみを生成する新しい決定木アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-21T08:45:26Z) - Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues [55.97779732051921]
オーキューを分類器学習に明示的に組み込むための新しい学習戦略が提案されている。
分類性能を劣化させることなく階層的解釈性を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-02-01T02:13:49Z) - Instruction-Guided Scene Text Recognition [51.853730414264625]
本稿では、STRを命令学習問題として定式化する命令誘導シーンテキスト認識(IGTR)パラダイムを提案する。
IGTRはまず、$left langle condition,question,answerright rungle$ instruction tripletを考案し、文字属性のリッチで多様な記述を提供する。
IGTRは,これらの属性を質問応答により効果的に学習するために,軽量な命令エンコーダ,クロスモーダル機能融合モジュール,マルチタスク応答ヘッドを開発した。
論文 参考訳(メタデータ) (2024-01-31T14:13:01Z) - Synthetic Map Generation to Provide Unlimited Training Data for
Historical Map Text Detection [5.872532529455414]
そこで本研究では,テキスト検出モデルのトレーニングのために,注釈付き歴史地図画像の無限量の自動生成手法を提案する。
我々は,現在最先端のテキスト検出モデルが,合成歴史地図の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2021-12-12T00:27:03Z) - Graph Sampling Based Deep Metric Learning for Generalizable Person
Re-Identification [114.56752624945142]
我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。
大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-04T06:44:15Z) - Weakly-Supervised Salient Object Detection via Scribble Annotations [54.40518383782725]
本稿では,スクリブルラベルからサリエンシを学習するための弱教師付きサリエント物体検出モデルを提案する。
そこで本研究では,予測されたサリエンシマップの構造アライメントを測定するために,新しい尺度であるサリエンシ構造尺度を提案する。
我々の手法は、既存の弱教師付き/非教師付き手法よりも優れているだけでなく、いくつかの完全教師付き最先端モデルと同等である。
論文 参考訳(メタデータ) (2020-03-17T12:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。