論文の概要: Integrating Visual and Textual Inputs for Searching Large-Scale Map Collections with CLIP
- arxiv url: http://arxiv.org/abs/2410.01190v1
- Date: Wed, 02 Oct 2024 02:51:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 14:30:25.615157
- Title: Integrating Visual and Textual Inputs for Searching Large-Scale Map Collections with CLIP
- Title(参考訳): CLIPによる大規模マップコレクション検索のためのビジュアル入力とテキスト入力の統合
- Authors: Jamie Mahowald, Benjamin Charles Germain Lee,
- Abstract要約: 自然言語入力を用いて大規模地図コレクションを対話的に検索する可能性について検討する。
ケーススタディでは,議会図書館のAPIを通じて公開されている地図の572,842枚を採用。
本稿では,議会地理地図局の職員との相談で作成した検索結果について紹介する。
- 参考スコア(独自算出の注目度): 0.09208007322096533
- License:
- Abstract: Despite the prevalence and historical importance of maps in digital collections, current methods of navigating and exploring map collections are largely restricted to catalog records and structured metadata. In this paper, we explore the potential for interactively searching large-scale map collections using natural language inputs ("maps with sea monsters"), visual inputs (i.e., reverse image search), and multimodal inputs (an example map + "more grayscale"). As a case study, we adopt 562,842 images of maps publicly accessible via the Library of Congress's API. To accomplish this, we use the mulitmodal Contrastive Language-Image Pre-training (CLIP) machine learning model to generate embeddings for these maps, and we develop code to implement exploratory search capabilities with these input strategies. We present results for example searches created in consultation with staff in the Library of Congress's Geography and Map Division and describe the strengths, weaknesses, and possibilities for these search queries. Moreover, we introduce a fine-tuning dataset of 10,504 map-caption pairs, along with an architecture for fine-tuning a CLIP model on this dataset. To facilitate re-use, we provide all of our code in documented, interactive Jupyter notebooks and place all code into the public domain. Lastly, we discuss the opportunities and challenges for applying these approaches across both digitized and born-digital collections held by galleries, libraries, archives, and museums.
- Abstract(参考訳): デジタルコレクションにおける地図の流行と歴史的重要性にもかかわらず、地図コレクションのナビゲートと探索の現在の方法は、カタログ記録や構造化メタデータに大きく制限されている。
本稿では、自然言語入力(海獣マップ)、視覚入力(リバースイメージサーチ)、マルチモーダル入力(地図+よりグレースケール)を用いて、大規模地図コレクションをインタラクティブに検索する可能性について検討する。
ケーススタディでは,議会図書館のAPIを通じて公開されている地図の572,842枚を採用。
そこで我々は,これらのマップへの埋め込みを生成するために,相互比較言語-画像事前学習(CLIP)機械学習モデルを用い,これらの入力戦略を用いて探索探索機能を実装するコードを開発した。
本稿では、例えば、議会地理地図局の職員との相談で作成した検索結果と、これらの検索クエリの長所、短所、および可能性について述べる。
さらに、このデータセット上でCLIPモデルを微調整するためのアーキテクチャとともに、10,504のマップキャプチャペアの微調整データセットを導入します。
再利用を容易にするため、ドキュメント化されたインタラクティブなJupyterノートブックにすべてのコードを提供し、すべてのコードをパブリックドメインに配置します。
最後に,美術館,図書館,資料館,博物館が所蔵するデジタルコレクションとデジタルコレクションの両方に,これらのアプローチを適用する機会と課題について論じる。
関連論文リスト
- VecCity: A Taxonomy-guided Library for Map Entity Representation Learning [48.73446321300362]
マップエンティティ表現学習(MapRL)は、汎用的で再利用可能なデータ表現を生成する。
本稿では,エンコーダや事前学習タスク,下流タスクなどの機能的モジュールモデルに基づいてモデルを編成するMapRLの新しい分類法を提案する。
本稿では, コード化, 事前学習, 微調整, 評価のための, 使いやすいインタフェースを提供する分類学駆動型ライブラリであるVecCityを提案する。
論文 参考訳(メタデータ) (2024-10-31T07:03:46Z) - Masked Image Modeling: A Survey [73.21154550957898]
マスク付き画像モデリングは、コンピュータビジョンにおける強力な自己教師付き学習技術として登場した。
我々は近年,分類学を構築し,最も顕著な論文をレビューしている。
我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能評価結果を集約する。
論文 参考訳(メタデータ) (2024-08-13T07:27:02Z) - CartoMark: a benchmark dataset for map pattern recognition and 1 map
content retrieval with machine intelligence [9.652629004863364]
我々は,地図テキストアノテーション認識,地図シーン分類,地図超解像再構成,地図スタイル転送のための大規模ベンチマークデータセットを開発した。
これらの良好なラベル付きデータセットは、マップ特徴の検出、マップパターン認識、マップコンテンツ検索を行う最先端のマシンインテリジェンス技術を促進する。
論文 参考訳(メタデータ) (2023-12-14T01:54:38Z) - The mapKurator System: A Complete Pipeline for Extracting and Linking
Text from Historical Maps [7.209761597734092]
mapKuratorは、マシンラーニングモデルと包括的なデータ処理パイプラインを統合するエンドツーエンドシステムである。
我々はmapKuratorシステムをデプロイし、David Rumsey Historical Mapコレクションに6万以上の地図と1億以上のテキスト/場所名の処理を可能にしました。
論文 参考訳(メタデータ) (2023-06-29T16:05:40Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Synthetic Map Generation to Provide Unlimited Training Data for
Historical Map Text Detection [5.872532529455414]
そこで本研究では,テキスト検出モデルのトレーニングのために,注釈付き歴史地図画像の無限量の自動生成手法を提案する。
我々は,現在最先端のテキスト検出モデルが,合成歴史地図の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2021-12-12T00:27:03Z) - An Automatic Approach for Generating Rich, Linked Geo-Metadata from
Historical Map Images [6.962949867017594]
本稿では,歴史地図画像の検索と索引付けの現実的問題に対処するエンド・ツー・エンドのアプローチを提案する。
我々はmapKuratorと呼ばれるシステムでこのアプローチを実装した。
論文 参考訳(メタデータ) (2021-12-03T01:44:38Z) - MapReader: A Computer Vision Pipeline for the Semantic Exploration of
Maps at Scale [1.5894241142512051]
我々はMapReaderを紹介します。これはPythonで書かれたフリーのオープンソースソフトウェアライブラリで、大きなマップコレクション(スキャンまたは誕生デジタル)を解析します。
MapReaderを使えば、コンピュータビジョンの専門知識がほとんど、あるいは全くないユーザが、Webサーバ経由でマップを検索できる。
MapReaderパイプラインからの出力は他の外部データセットとどのようにリンクするかを示す。
論文 参考訳(メタデータ) (2021-11-30T17:37:01Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。