論文の概要: Large Multi-modal Model Cartographic Map Comprehension for Textual Locality Georeferencing
- arxiv url: http://arxiv.org/abs/2507.08575v1
- Date: Fri, 11 Jul 2025 13:23:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.370664
- Title: Large Multi-modal Model Cartographic Map Comprehension for Textual Locality Georeferencing
- Title(参考訳): テキスト・ローカル・ジオレファレンスのための大規模マルチモーダルモデル地図の理解
- Authors: Kalana Wijegunarathna, Kristin Stock, Christopher B. Jones,
- Abstract要約: 過去数世紀で収集された数百万の生物学的サンプル記録は、自然史のコレクションに記録されている。
近年のLMM(Large Multi-Modal Models)のマルチモーダル機能を利用した新しい手法の予備実験と結果について述べる。
この手法により、モデルが局所性記述で読み出す空間関係を視覚的にテクスチャ化することができる。
- 参考スコア(独自算出の注目度): 0.5120567378386615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Millions of biological sample records collected in the last few centuries archived in natural history collections are un-georeferenced. Georeferencing complex locality descriptions associated with these collection samples is a highly labour-intensive task collection agencies struggle with. None of the existing automated methods exploit maps that are an essential tool for georeferencing complex relations. We present preliminary experiments and results of a novel method that exploits multi-modal capabilities of recent Large Multi-Modal Models (LMM). This method enables the model to visually contextualize spatial relations it reads in the locality description. We use a grid-based approach to adapt these auto-regressive models for this task in a zero-shot setting. Our experiments conducted on a small manually annotated dataset show impressive results for our approach ($\sim$1 km Average distance error) compared to uni-modal georeferencing with Large Language Models and existing georeferencing tools. The paper also discusses the findings of the experiments in light of an LMM's ability to comprehend fine-grained maps. Motivated by these results, a practical framework is proposed to integrate this method into a georeferencing workflow.
- Abstract(参考訳): 過去数世紀で収集された数百万の生物サンプル記録は、自然史のコレクションに記録されている。
これらの収集サンプルに関連する複雑な局所性の記述を参照することは、高度に労働集約的なタスク収集機関が苦労する課題である。
既存の自動化手法では、複雑な関係をジオレファレンスするための重要なツールであるマップを利用するものはない。
本稿では,近年のLarge Multi-Modal Models (LMM) のマルチモーダル機能を利用した新しい手法の予備実験と結果を示す。
この手法により、モデルが局所性記述で読み出す空間関係を視覚的にテクスチャ化することができる。
我々は、グリッドベースのアプローチを用いて、これらの自動回帰モデルをゼロショット設定でこのタスクに適用する。
提案手法は,大規模言語モデルと既存のジオレファレンスツールを用いた単モーダルジオレファレンスと比較し,手動で手動でアノテートした小さなデータセット(平均距離誤差$1 km)を用いて行った。
また,LMMの細粒度マップ理解能力を考慮した実験結果についても論じる。
これらの結果から,この手法をジオレファレンス・ワークフローに統合するための実践的なフレームワークが提案されている。
関連論文リスト
- GeoMM: On Geodesic Perspective for Multi-modal Learning [55.41612200877861]
本稿では,マルチモーダル学習における測地線距離を新しい距離測定基準として導入する。
我々のアプローチは、現在のマルチモーダル学習に測地距離を適用するための包括的な戦略を取り入れている。
論文 参考訳(メタデータ) (2025-05-16T13:12:41Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - GeoJEPA: Towards Eliminating Augmentation- and Sampling Bias in Multimodal Geospatial Learning [0.0]
自己教師型統合埋め込み予測アーキテクチャ上に構築された地理空間データのための多目的多モード融合モデルであるGeoJEPAを提案する。
我々は,自己教師付き地理空間表現学習において広く受け入れられている増分とサンプリングバイアスを排除することを目的としている。
その結果,都市域のマルチモーダルな意味表現と,定量的かつ質的に評価するマップエンティティが得られた。
論文 参考訳(メタデータ) (2025-02-25T22:03:28Z) - Detecting Contextual Anomalies by Discovering Consistent Spatial Regions [5.160649627495959]
本稿では,映像の異常検出を可能にする空間コンテキストをモデル化する手法について述べる。
主なアイデアは、共同オブジェクト属性をクラスタリングすることで、類似したオブジェクトレベルのアクティビティを共有する領域を見つけることである。
本稿では, 競合モデルよりも桁違いに少ないパラメータを用いて, 空間コンテキストに依存したストリートシーンデータセットを用いて, このアプローチを実証する。
論文 参考訳(メタデータ) (2025-01-14T22:33:07Z) - MapExplorer: New Content Generation from Low-Dimensional Visualizations [60.02149343347818]
低次元の可視化や「投影マップ」は大規模で複雑なデータセットの解釈に広く用いられている。
これらの視覚化は、既存の知識空間を理解するのに役立つだけでなく、未知の領域への探索を暗黙的にガイドする。
プロジェクションマップ内の座標をコヒーレントでコンテキストに整合したテキストコンテンツに変換する新しい知識発見タスクであるMapExplorerを紹介する。
論文 参考訳(メタデータ) (2024-12-24T20:16:13Z) - An LLM Agent for Automatic Geospatial Data Analysis [5.842462214442362]
大規模言語モデル(LLM)は、データサイエンスコード生成タスクで使われている。
複雑なデータ構造と空間的制約を組み込むのが困難であるため,空間空間データ処理への応用は困難である。
ジオアジェント(GeoAgent)は,LLMが地理空間データ処理をより効率的に処理できるように設計された対話型フレームワークである。
論文 参考訳(メタデータ) (2024-10-24T14:47:25Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - MGeo: Multi-Modal Geographic Pre-Training Method [49.78466122982627]
マルチモーダルジオグラフィック言語モデル(MGeo)を提案する。
MGeoはGCを新しいモダリティとして表現し、正確なクエリ-POIマッチングのためのマルチモーダル相関を完全に抽出することができる。
提案するマルチモーダル事前学習法は,汎用PTMのクエリ-POIマッチング能力を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-11T03:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。