論文の概要: The mapKurator System: A Complete Pipeline for Extracting and Linking
Text from Historical Maps
- arxiv url: http://arxiv.org/abs/2306.17059v1
- Date: Thu, 29 Jun 2023 16:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 12:39:38.553355
- Title: The mapKurator System: A Complete Pipeline for Extracting and Linking
Text from Historical Maps
- Title(参考訳): MapKurator System: 歴史地図からのテキストの抽出とリンクのための完全なパイプライン
- Authors: Jina Kim, Zekun Li, Yijun Lin, Min Namgung, Leeje Jang, Yao-Yi Chiang
- Abstract要約: 文書の空間的焦点を特定する伝統的なアプローチは、文書から位相を検出し、曖昧にすることに依存している。
大規模言語モデルを用いた最近のトピックモデリングアプローチでは、広範囲にわたるトピックを考慮に入れていることが多い。
文書と位置のエンコーダを分離した表現を共同で学習するマルチロカリットY(JELLY)の簡易かつ効果的な結合埋め込みを提案する。
- 参考スコア(独自算出の注目度): 7.209761597734092
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Documents hold spatial focus and valuable locality characteristics. For
example, descriptions of listings in real estate or travel blogs contain
information about specific local neighborhoods. This information is valuable to
characterize how humans perceive their environment. However, the first step to
making use of this information is to identify the spatial focus (e.g., a city)
of a document. Traditional approaches for identifying the spatial focus of a
document rely on detecting and disambiguating toponyms from the document. This
approach requires a vocabulary set of location phrases and ad-hoc rules, which
ignore important words related to location. Recent topic modeling approaches
using large language models often consider a few topics, each with broad
coverage. In contrast, the spatial focus of a document can be a country, a
city, or even a neighborhood, which together, is much larger than the number of
topics considered in these approaches. Additionally, topic modeling methods are
often applied to broad topics of news articles where context is easily
distinguishable. To identify the geographic focus of a document effectively, we
present a simple but effective Joint Embedding of multi-LocaLitY (JELLY), which
jointly learns representations with separate encoders of document and location.
JELLY significantly outperforms state-of-the-art methods for identifying
spatial focus from documents from a number of sources. We also demonstrate case
studies on the arithmetic of the learned representations, including identifying
cities with similar locality characteristics and zero-shot learning to identify
document spatial focus.
- Abstract(参考訳): 文書には空間的焦点と貴重な地域特性がある。
例えば、不動産や旅行ブログの一覧には、特定の地域の情報が含まれている。
この情報は、人間がどのように環境を知覚するかを特徴づけるのに価値がある。
しかし、この情報を利用するための最初のステップは、文書の空間的焦点(例えば、都市)を特定することである。
文書の空間的焦点を特定する伝統的なアプローチは、文書から位相を検出し、曖昧にすることに依存している。
このアプローチでは、位置句の語彙セットと、位置に関連する重要な単語を無視するアドホックな規則が必要である。
大規模言語モデルを用いた最近のトピックモデリングアプローチでは、いくつかのトピックが取り上げられることが多い。
対照的に、文書の空間的焦点は、国、都市、あるいは近隣であり、それらを組み合わせて、これらのアプローチで考慮されるトピックの数よりもはるかに大きい。
さらに、話題モデリング手法は、文脈の識別が容易なニュース記事の幅広い話題に適用されることが多い。
文書の地理的焦点を効果的に識別するために,文書と位置の異なるエンコーダと共同で表現を学習するマルチロカリットY(JELLY)の簡易かつ効果的な共同埋め込みを提案する。
JELLYは、複数の情報源からの文書から空間的焦点を特定する最先端の手法を著しく上回っている。
また、類似の地域特性を持つ都市と、文書空間の焦点を特定するゼロショット学習を含む、学習された表現の算術に関するケーススタディを示す。
関連論文リスト
- Neural Semantic Map-Learning for Autonomous Vehicles [85.8425492858912]
本稿では,道路環境のコヒーレントな地図を作成するために,車両群から収集した局所部分写像を中心インスタンスに融合するマッピングシステムを提案する。
本手法は,シーン特異的なニューラルサイン距離場を用いて,雑音と不完全局所部分写像を併用する。
我々は,記憶効率の高いスパース機能グリッドを活用して大規模にスケールし,シーン再構築における不確実性をモデル化するための信頼スコアを導入する。
論文 参考訳(メタデータ) (2024-10-10T10:10:03Z) - Integrating Visual and Textual Inputs for Searching Large-Scale Map Collections with CLIP [0.09208007322096533]
自然言語入力を用いて大規模地図コレクションを対話的に検索する可能性について検討する。
ケーススタディでは,議会図書館のAPIを通じて公開されている地図の572,842枚を採用。
本稿では,議会地理地図局の職員との相談で作成した検索結果について紹介する。
論文 参考訳(メタデータ) (2024-10-02T02:51:02Z) - CartoMark: a benchmark dataset for map pattern recognition and 1 map
content retrieval with machine intelligence [9.652629004863364]
我々は,地図テキストアノテーション認識,地図シーン分類,地図超解像再構成,地図スタイル転送のための大規模ベンチマークデータセットを開発した。
これらの良好なラベル付きデータセットは、マップ特徴の検出、マップパターン認識、マップコンテンツ検索を行う最先端のマシンインテリジェンス技術を促進する。
論文 参考訳(メタデータ) (2023-12-14T01:54:38Z) - AutoGeoLabel: Automated Label Generation for Geospatial Machine Learning [69.47585818994959]
リモートセンシングデータのためのラベルの自動生成のためのビッグデータ処理パイプラインを評価する。
我々は,大規模データプラットフォームであるIBM PAIRSを用いて,密集都市部でそのようなラベルを動的に生成する。
論文 参考訳(メタデータ) (2022-01-31T20:02:22Z) - Synthetic Map Generation to Provide Unlimited Training Data for
Historical Map Text Detection [5.872532529455414]
そこで本研究では,テキスト検出モデルのトレーニングのために,注釈付き歴史地図画像の無限量の自動生成手法を提案する。
我々は,現在最先端のテキスト検出モデルが,合成歴史地図の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2021-12-12T00:27:03Z) - An Automatic Approach for Generating Rich, Linked Geo-Metadata from
Historical Map Images [6.962949867017594]
本稿では,歴史地図画像の検索と索引付けの現実的問題に対処するエンド・ツー・エンドのアプローチを提案する。
我々はmapKuratorと呼ばれるシステムでこのアプローチを実装した。
論文 参考訳(メタデータ) (2021-12-03T01:44:38Z) - MapReader: A Computer Vision Pipeline for the Semantic Exploration of
Maps at Scale [1.5894241142512051]
我々はMapReaderを紹介します。これはPythonで書かれたフリーのオープンソースソフトウェアライブラリで、大きなマップコレクション(スキャンまたは誕生デジタル)を解析します。
MapReaderを使えば、コンピュータビジョンの専門知識がほとんど、あるいは全くないユーザが、Webサーバ経由でマップを検索できる。
MapReaderパイプラインからの出力は他の外部データセットとどのようにリンクするかを示す。
論文 参考訳(メタデータ) (2021-11-30T17:37:01Z) - HDMapGen: A Hierarchical Graph Generative Model of High Definition Maps [81.86923212296863]
HDマップは道路路面の正確な定義と交通ルールの豊富な意味を持つ地図である。
実際の道路トポロジやジオメトリはごくわずかで、自動運転スタックをテストする能力は著しく制限されています。
高品質で多様なHDマップを生成可能な階層グラフ生成モデルであるHDMapGenを提案する。
論文 参考訳(メタデータ) (2021-06-28T17:59:30Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - OpenStreetMap: Challenges and Opportunities in Machine Learning and
Remote Sensing [66.23463054467653]
本稿では,OpenStreetMapデータの改良と利用のための機械学習に基づく最近の手法について述べる。
私たちは、OSMがリモートセンシングデータの解釈方法を変え、機械学習とのシナジーが参加型マップ作成をスケールできると考えている。
論文 参考訳(メタデータ) (2020-07-13T09:58:14Z) - Voxel Map for Visual SLAM [57.07800982410967]
視覚SLAMのための点を効率的にマッピングするボクセルマップ表現を提案する。
本手法は,カメラの視野に落下することを幾何的に保証し,隠蔽点を特定・除去できる。
実験結果から,我々のボクセルマップ表現は5sの地図と同等に効率的であり,EuRoCデータセット上での局所化精度(平均46%の改善)が有意に高いことがわかった。
論文 参考訳(メタデータ) (2020-03-04T18:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。