論文の概要: An Efficient System for Automatic Map Storytelling -- A Case Study on Historical Maps
- arxiv url: http://arxiv.org/abs/2410.15780v1
- Date: Mon, 21 Oct 2024 08:45:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:20:32.421310
- Title: An Efficient System for Automatic Map Storytelling -- A Case Study on Historical Maps
- Title(参考訳): 自動地図ストーリーテリングのための効率的なシステム -歴史地図を事例として-
- Authors: Ziyi Liu, Claudio Affolter, Sidi Wu, Yizi Chen, Lorenz Hurni,
- Abstract要約: 歴史地図は、過去の貴重な情報と知識を提供する。
しばしば非標準的な投影、手描きのスタイル、芸術的要素を特徴としているため、非専門家がそれらを識別し解釈することは困難である。
既存の画像キャプション手法は、自然画像において顕著な成功を収めており、地図上でのパフォーマンスは、事前学習過程において地図が不足しているため、最適以下である。
テキスト認識や地図キャプションにおけるGPT-4の最近の進歩にもかかわらず、地図内のテキストが欠落したり不正確になったりした場合のパフォーマンスが低下するため、地図に対する理解は限られている。
意味のある字幕のみを生成する新しい決定木アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 11.037615422309296
- License:
- Abstract: Historical maps provide valuable information and knowledge about the past. However, as they often feature non-standard projections, hand-drawn styles, and artistic elements, it is challenging for non-experts to identify and interpret them. While existing image captioning methods have achieved remarkable success on natural images, their performance on maps is suboptimal as maps are underrepresented in their pre-training process. Despite the recent advance of GPT-4 in text recognition and map captioning, it still has a limited understanding of maps, as its performance wanes when texts (e.g., titles and legends) in maps are missing or inaccurate. Besides, it is inefficient or even impractical to fine-tune the model with users' own datasets. To address these problems, we propose a novel and lightweight map-captioning counterpart. Specifically, we fine-tune the state-of-the-art vision-language model CLIP to generate captions relevant to historical maps and enrich the captions with GPT-3.5 to tell a brief story regarding where, what, when and why of a given map. We propose a novel decision tree architecture to only generate captions relevant to the specified map type. Our system shows invariance to text alterations in maps. The system can be easily adapted and extended to other map types and scaled to a larger map captioning system. The code is open-sourced at https://github.com/claudaff/automatic-map-storytelling.
- Abstract(参考訳): 歴史地図は、過去の貴重な情報と知識を提供する。
しかし、しばしば非標準的な投影、手描きのスタイル、芸術的要素を特徴としているため、非専門家がそれらを識別し解釈することは困難である。
既存の画像キャプション手法は自然画像において顕著な成功を収めてきたが、地図上でのパフォーマンスは、事前学習過程において地図が過小評価されているため、最適以下である。
テキスト認識や地図キャプションにおけるGPT-4の最近の進歩にもかかわらず、地図内のテキスト(例えば、タイトルや伝説)が欠落したり、不正確なときに、その性能が低下するため、地図に対する理解は限られている。
さらに、ユーザー自身のデータセットでモデルを微調整するのは非効率か、あるいは実用的ではない。
これらの問題に対処するため、我々は新しくて軽量な地図カプセル化手法を提案する。
具体的には、現在最先端の視覚言語モデルCLIPを微調整し、歴史地図に関連するキャプションを生成し、GPT-3.5でキャプションを充実させ、与えられた地図の場所、場所、時期、理由について簡潔な物語を伝える。
そこで本研究では,指定された地図タイプに関連するキャプションのみを生成する新しい決定木アーキテクチャを提案する。
本システムでは,地図におけるテキスト変更に対する不変性を示す。
システムは簡単に適応し、他のマップタイプに拡張でき、より大きな地図キャプションシステムに拡張できる。
コードはhttps://github.com/claudaff/automatic-map-storytelling.comで公開されている。
関連論文リスト
- Tag Map: A Text-Based Map for Spatial Reasoning and Navigation with Large Language Models [15.454856838083511]
大言語モデル(LLM)は、ロボットが共通感覚推論を用いてタスクプランを生成するためのツールとして登場した。
最近の研究は、固定された意味クラスを持つ明示的な写像から暗黙的なオープンな語彙マップへと移行している。
LLMと簡単に統合しながら、数千のセマンティッククラスを表現できる明示的なテキストベースのマップを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:26:19Z) - Neural Semantic Surface Maps [52.61017226479506]
本稿では,2つの属とゼロの形状の地図を自動計算する手法を提案する。
提案手法は,手動のアノテーションや3Dトレーニングデータ要求を排除し,意味的表面-表面マップを生成する。
論文 参考訳(メタデータ) (2023-09-09T16:21:56Z) - Sat2Cap: Mapping Fine-Grained Textual Descriptions from Satellite Images [12.356676398446215]
自由形式のテキスト記述を用いた地図作成のための弱教師付きアプローチを提案する。
私たちはSat2Capと呼ばれる対照的な学習フレームワークを6.10万対のオーバーヘッドと地上レベルのイメージを持つ新しい大規模データセットでトレーニングします。
論文 参考訳(メタデータ) (2023-07-29T06:23:51Z) - The mapKurator System: A Complete Pipeline for Extracting and Linking
Text from Historical Maps [7.209761597734092]
mapKuratorは、マシンラーニングモデルと包括的なデータ処理パイプラインを統合するエンドツーエンドシステムである。
我々はmapKuratorシステムをデプロイし、David Rumsey Historical Mapコレクションに6万以上の地図と1億以上のテキスト/場所名の処理を可能にしました。
論文 参考訳(メタデータ) (2023-06-29T16:05:40Z) - SNAP: Self-Supervised Neural Maps for Visual Positioning and Semantic
Understanding [57.108301842535894]
我々は、地上と頭上の画像からリッチなニューラル2Dマップを学習するディープネットワークSNAPを紹介する。
我々は、異なる入力から推定されるニューラルマップの整列をトレーニングし、何千万ものストリートビュー画像のカメラポーズでのみ監視する。
SNAPは、従来の手法の範囲を超えて、挑戦的な画像クエリの場所を解決できる。
論文 参考訳(メタデータ) (2023-06-08T17:54:47Z) - Long-term Visual Map Sparsification with Heterogeneous GNN [47.12309045366042]
本稿では,環境変化を克服し,将来のローカライゼーションに有用な点を選択することで,地図サイズを同時に削減することを目的とする。
グラフニューラルネットワーク(GNN)の最近の進歩に触発されて,SfMマップを異種グラフとしてモデル化し,GNNを用いて3次元点重要度を推定する最初の研究を提案する。
2つの新しい監督手法が提案されている: 1) トレーニングクエリに基づく将来のローカライゼーションに有用なポイントを選択するためのデータ適合用語、2) スパースポイントをフルマップで選択するためのK-Cover用語。
論文 参考訳(メタデータ) (2022-03-29T01:46:12Z) - Synthetic Map Generation to Provide Unlimited Training Data for
Historical Map Text Detection [5.872532529455414]
そこで本研究では,テキスト検出モデルのトレーニングのために,注釈付き歴史地図画像の無限量の自動生成手法を提案する。
我々は,現在最先端のテキスト検出モデルが,合成歴史地図の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2021-12-12T00:27:03Z) - An Automatic Approach for Generating Rich, Linked Geo-Metadata from
Historical Map Images [6.962949867017594]
本稿では,歴史地図画像の検索と索引付けの現実的問題に対処するエンド・ツー・エンドのアプローチを提案する。
我々はmapKuratorと呼ばれるシステムでこのアプローチを実装した。
論文 参考訳(メタデータ) (2021-12-03T01:44:38Z) - Semantic Image Alignment for Vehicle Localization [111.59616433224662]
単眼カメラからのセマンティックセグメンテーションを用いた高密度セマンティックマップにおける車両位置推定手法を提案する。
既存の視覚的ローカライゼーションアプローチとは対照的に、システムは追加のキーポイント機能、手作りのローカライゼーションランドマーク抽出器、高価なLiDARセンサーを必要としない。
論文 参考訳(メタデータ) (2021-10-08T14:40:15Z) - HDMapGen: A Hierarchical Graph Generative Model of High Definition Maps [81.86923212296863]
HDマップは道路路面の正確な定義と交通ルールの豊富な意味を持つ地図である。
実際の道路トポロジやジオメトリはごくわずかで、自動運転スタックをテストする能力は著しく制限されています。
高品質で多様なHDマップを生成可能な階層グラフ生成モデルであるHDMapGenを提案する。
論文 参考訳(メタデータ) (2021-06-28T17:59:30Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。