論文の概要: World-POI: Global Point-of-Interest Data Enriched from Foursquare and OpenStreetMap as Tabular and Graph Data
- arxiv url: http://arxiv.org/abs/2510.21342v1
- Date: Fri, 24 Oct 2025 11:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.44639
- Title: World-POI: Global Point-of-Interest Data Enriched from Foursquare and OpenStreetMap as Tabular and Graph Data
- Title(参考訳): World-POI:FoursquareとOpenStreetMapをグラフデータとして強化したグローバル・ポイント・オブ・インテンシブ・データ
- Authors: Hossein Amiri, Mohammad Hashemi, Andreas Züfle,
- Abstract要約: 最近Foursquareは1億以上の関心点(POI)を持つグローバルデータセットをリリースした。
対照的に、OpenStreetMap (OSM) は、詳細なメタデータと頻繁な更新を伴う、リッチでユーザ対応のPOIデータセットを提供する。
両データセットの長所を統合する方法論を提案する。
- 参考スコア(独自算出の注目度): 1.2107297090229685
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, Foursquare released a global dataset with more than 100 million points of interest (POIs), each representing a real-world business on its platform. However, many entries lack complete metadata such as addresses or categories, and some correspond to non-existent or fictional locations. In contrast, OpenStreetMap (OSM) offers a rich, user-contributed POI dataset with detailed and frequently updated metadata, though it does not formally verify whether a POI represents an actual business. In this data paper, we present a methodology that integrates the strengths of both datasets: Foursquare as a comprehensive baseline of commercial POIs and OSM as a source of enriched metadata. The combined dataset totals approximately 1 TB. While this full version is not publicly released, we provide filtered releases with adjustable thresholds that reduce storage needs and make the data practical to download and use across domains. We also provide step-by-step instructions to reproduce the full 631 GB build. Record linkage is achieved by computing name similarity scores and spatial distances between Foursquare and OSM POIs. These measures identify and retain high-confidence matches that correspond to real businesses in Foursquare, have representations in OSM, and show strong name similarity. Finally, we use this filtered dataset to construct a graph-based representation of POIs enriched with attributes from both sources, enabling advanced spatial analyses and a range of downstream applications.
- Abstract(参考訳): 最近Foursquareは1億以上の関心点(POI)を持つグローバルデータセットをリリースした。
しかし、多くのエントリにはアドレスやカテゴリなどの完全なメタデータがなく、いくつかは存在しない場所や架空の場所に対応している。
対照的に、OpenStreetMap(OSM)は、詳細なメタデータと頻繁な更新を伴う、リッチでユーザコントリビュートなPOIデータセットを提供するが、POIが実際のビジネスを表すかどうかを正式には検証していない。
本稿では,両データセットの長所を統合する方法論を提案する。Foursquareは商用POIの包括的ベースラインであり,OSMは豊富なメタデータのソースである。
合計データセットは約1TBである。
このフルバージョンは公開されていないが、ストレージの必要性を減らし、ドメイン間のデータのダウンロードと使用を現実的にするための調整可能なしきい値を備えたフィルタリングリリースを提供している。
また、フル631GBのビルドを再現するためのステップバイステップの命令も提供します。
レコードリンクはFoursquareとOSM POI間の名前の類似点と空間距離を計算することによって達成される。
これらの尺度は、Foursquareのリアルビジネスに対応し、OSMで表現され、強い名前の類似性を示す、信頼度の高いマッチングを識別し、保持する。
最後に、このフィルタデータセットを用いて、両方の情報源からの属性が豊富なPOIをグラフベースで表現し、高度な空間分析と様々な下流アプリケーションを実現する。
関連論文リスト
- Exploring the Decentraland Economy: Multifaceted Parcel Attributes, Key Insights, and Benchmarking [1.83621951969607]
IITP-VDLandは、Decentraland、OpenSea、Etherscan、Google BigQuery、およびさまざまなソーシャルメディアプラットフォームなどのさまざまなプラットフォームをソースとする、分散パーセルデータセットである。
仮想世界における各パーセルの特異性を測定するために,データセットにキー属性,すなわちRarityスコアを導入する。
論文 参考訳(メタデータ) (2024-04-11T07:54:14Z) - LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - OpenFWI: Large-Scale Multi-Structural Benchmark Datasets for Seismic
Full Waveform Inversion [16.117689670474142]
フルウェーブフォーム・インバージョン(FWI)は、地震データから高分解能速度マップを再構成するために地球物理学で広く用いられている。
データ駆動型FWI手法の最近の成功は、地球物理学のコミュニティにサービスを提供するためのオープンデータセットの需要が急速に増加した結果である。
大規模マルチ構造化ベンチマークデータセットの集合であるOpenFWIを提案する。
論文 参考訳(メタデータ) (2021-11-04T15:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。