論文の概要: Quantifying Geospatial in the Common Crawl Corpus
- arxiv url: http://arxiv.org/abs/2406.04952v1
- Date: Fri, 7 Jun 2024 14:16:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 13:41:57.406615
- Title: Quantifying Geospatial in the Common Crawl Corpus
- Title(参考訳): コモンクローリングコーパスにおける地理空間の定量化
- Authors: Ilya Ilyankou, Meihui Wang, James Haworth, Stefano Cavazzi,
- Abstract要約: 本稿では,強力な言語モデルであるGeminiを用いて,Common Crawlリリースにおける地理空間データの有効性について検討する。
5分の1から6分の1の文書には座標や道路アドレスなどの地理空間情報が含まれていると推定する。
- 参考スコア(独自算出の注目度): 0.07499722271664144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit emerging geospatial capabilities, stemming from their pre-training on vast unlabelled text datasets that are often derived from the Common Crawl corpus. However, the geospatial content within CC remains largely unexplored, impacting our understanding of LLMs' spatial reasoning. This paper investigates the prevalence of geospatial data in recent Common Crawl releases using Gemini, a powerful language model. By analyzing a sample of documents and manually revising the results, we estimate that between 1 in 5 and 1 in 6 documents contain geospatial information such as coordinates and street addresses. Our findings provide quantitative insights into the nature and extent of geospatial data within Common Crawl, and web crawl data in general. Furthermore, we formulate questions to guide future investigations into the geospatial content of available web crawl datasets and its influence on LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしばCommon Crawl corpusから派生した巨大な未ラベルテキストデータセットの事前学習から生まれた、新しい地理空間能力を示す。
しかし, CC内の空間的含みは未解明であり, LLMsの空間的推論の理解に影響を与えている。
本稿では,最近のCommon Crawlリリースにおける地理空間データの有効性について,強力な言語モデルであるGeminiを用いて検討する。
文書のサンプルを分析し,手動で修正した結果から,座標や道路アドレスなどの地理空間情報を含む5分の1から6分の1の文書を推定する。
本研究は,Common Crawlにおける地理空間データの性質と範囲,およびWebクローデータ全般に関する定量的知見を提供する。
さらに,利用可能なWebクロースデータセットの地理空間的内容とそのLLMへの影響について,今後の調査の指針となる質問を定式化する。
関連論文リスト
- Where on Earth Do Users Say They Are?: Geo-Entity Linking for Noisy Multilingual User Input [2.516307239032451]
本稿では,実世界の位置情報をラベル付きユーザ・インプット・ロケーション名から平均的な埋め込みとして表現する手法を提案する。
本稿では,グローバルおよび多言語ソーシャルメディアデータセット上でのジオエンタリティリンクの改善について述べる。
論文 参考訳(メタデータ) (2024-04-29T15:18:33Z) - GeoGalactica: A Scientific Large Language Model in Geoscience [95.15911521220052]
大規模言語モデル(LLM)は、自然言語処理(NLP)における幅広いタスクを解く一般的な知識と能力で大きな成功を収めている。
我々は、LLMを地学に特化させ、さらに、地学の膨大なテキストでモデルを事前訓練し、また、カスタム収集した指導チューニングデータセットで得られたモデルを教師付き微調整(SFT)する。
我々はGeoGalacticaを65億のトークンを含む地球科学関連のテキストコーパスで訓練し、最大の地球科学固有のテキストコーパスとして保存する。
次に、100万対の命令チューニングでモデルを微調整する。
論文 参考訳(メタデータ) (2023-12-31T09:22:54Z) - GeoLM: Empowering Language Models for Geospatially Grounded Language
Understanding [45.36562604939258]
本稿では,自然言語におけるジオテリティーの理解を深める言語モデルGeoLMを紹介する。
また、GeoLMは、トポノニム認識、トポノニムリンク、関係抽出、ジオエンタリティタイピングをサポートする有望な能力を示すことを示した。
論文 参考訳(メタデータ) (2023-10-23T01:20:01Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - Are Large Language Models Geospatially Knowledgeable? [21.401931052512595]
本稿では,Large Language Models (LLM) で符号化された地理空間的知識,認識,推論能力の程度について検討する。
自己回帰言語モデルに焦点をあて, (i) 地理座標系におけるLLMの探索と地理空間知識の評価, (ii) 地理空間的および非地理空間的前置法を用いて地理空間的意識を測定する, (iii) 多次元スケーリング(MDS) 実験を用いて, モデルの地理空間的推論能力を評価する, 実験手法を考案した。
論文 参考訳(メタデータ) (2023-10-09T17:20:11Z) - Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese
Geographic Re-Ranking [61.60169764507917]
中国の地理的再ランクタスクは、検索された候補者の中で最も関連性の高い住所を見つけることを目的としている。
そこで我々は,中国語の地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
論文 参考訳(メタデータ) (2023-09-04T13:44:50Z) - K2: A Foundation Language Model for Geoscience Knowledge Understanding
and Utilization [105.89544876731942]
大規模言語モデル(LLM)は自然言語処理の一般分野において大きな成功を収めている。
我々は、地球科学におけるLLM研究をさらに促進するために開発された一連の資源とともに、地球科学における最初のLLMであるK2を提示する。
論文 参考訳(メタデータ) (2023-06-08T09:29:05Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - MGeo: Multi-Modal Geographic Pre-Training Method [49.78466122982627]
マルチモーダルジオグラフィック言語モデル(MGeo)を提案する。
MGeoはGCを新しいモダリティとして表現し、正確なクエリ-POIマッチングのためのマルチモーダル相関を完全に抽出することができる。
提案するマルチモーダル事前学習法は,汎用PTMのクエリ-POIマッチング能力を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-11T03:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。