論文の概要: World-POI: Global Point-of-Interest Data Enriched from Foursquare and OpenStreetMap as Tabular and Graph Data
- arxiv url: http://arxiv.org/abs/2510.21342v1
- Date: Fri, 24 Oct 2025 11:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.44639
- Title: World-POI: Global Point-of-Interest Data Enriched from Foursquare and OpenStreetMap as Tabular and Graph Data
- Title(参考訳): World-POI:FoursquareとOpenStreetMapをグラフデータとして強化したグローバル・ポイント・オブ・インテンシブ・データ
- Authors: Hossein Amiri, Mohammad Hashemi, Andreas Züfle,
- Abstract要約: 最近Foursquareは1億以上の関心点(POI)を持つグローバルデータセットをリリースした。
対照的に、OpenStreetMap (OSM) は、詳細なメタデータと頻繁な更新を伴う、リッチでユーザ対応のPOIデータセットを提供する。
両データセットの長所を統合する方法論を提案する。
- 参考スコア(独自算出の注目度): 1.2107297090229685
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, Foursquare released a global dataset with more than 100 million points of interest (POIs), each representing a real-world business on its platform. However, many entries lack complete metadata such as addresses or categories, and some correspond to non-existent or fictional locations. In contrast, OpenStreetMap (OSM) offers a rich, user-contributed POI dataset with detailed and frequently updated metadata, though it does not formally verify whether a POI represents an actual business. In this data paper, we present a methodology that integrates the strengths of both datasets: Foursquare as a comprehensive baseline of commercial POIs and OSM as a source of enriched metadata. The combined dataset totals approximately 1 TB. While this full version is not publicly released, we provide filtered releases with adjustable thresholds that reduce storage needs and make the data practical to download and use across domains. We also provide step-by-step instructions to reproduce the full 631 GB build. Record linkage is achieved by computing name similarity scores and spatial distances between Foursquare and OSM POIs. These measures identify and retain high-confidence matches that correspond to real businesses in Foursquare, have representations in OSM, and show strong name similarity. Finally, we use this filtered dataset to construct a graph-based representation of POIs enriched with attributes from both sources, enabling advanced spatial analyses and a range of downstream applications.
- Abstract(参考訳): 最近Foursquareは1億以上の関心点(POI)を持つグローバルデータセットをリリースした。
しかし、多くのエントリにはアドレスやカテゴリなどの完全なメタデータがなく、いくつかは存在しない場所や架空の場所に対応している。
対照的に、OpenStreetMap(OSM)は、詳細なメタデータと頻繁な更新を伴う、リッチでユーザコントリビュートなPOIデータセットを提供するが、POIが実際のビジネスを表すかどうかを正式には検証していない。
本稿では,両データセットの長所を統合する方法論を提案する。Foursquareは商用POIの包括的ベースラインであり,OSMは豊富なメタデータのソースである。
合計データセットは約1TBである。
このフルバージョンは公開されていないが、ストレージの必要性を減らし、ドメイン間のデータのダウンロードと使用を現実的にするための調整可能なしきい値を備えたフィルタリングリリースを提供している。
また、フル631GBのビルドを再現するためのステップバイステップの命令も提供します。
レコードリンクはFoursquareとOSM POI間の名前の類似点と空間距離を計算することによって達成される。
これらの尺度は、Foursquareのリアルビジネスに対応し、OSMで表現され、強い名前の類似性を示す、信頼度の高いマッチングを識別し、保持する。
最後に、このフィルタデータセットを用いて、両方の情報源からの属性が豊富なPOIをグラフベースで表現し、高度な空間分析と様々な下流アプリケーションを実現する。
関連論文リスト
- OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。
このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。
このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文 参考訳(メタデータ) (2025-01-14T13:42:22Z) - Exploring the Decentraland Economy: Multifaceted Parcel Attributes, Key Insights, and Benchmarking [1.83621951969607]
IITP-VDLandは、Decentraland、OpenSea、Etherscan、Google BigQuery、およびさまざまなソーシャルメディアプラットフォームなどのさまざまなプラットフォームをソースとする、分散パーセルデータセットである。
仮想世界における各パーセルの特異性を測定するために,データセットにキー属性,すなわちRarityスコアを導入する。
論文 参考訳(メタデータ) (2024-04-11T07:54:14Z) - LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - OpenFWI: Large-Scale Multi-Structural Benchmark Datasets for Seismic
Full Waveform Inversion [16.117689670474142]
フルウェーブフォーム・インバージョン(FWI)は、地震データから高分解能速度マップを再構成するために地球物理学で広く用いられている。
データ駆動型FWI手法の最近の成功は、地球物理学のコミュニティにサービスを提供するためのオープンデータセットの需要が急速に増加した結果である。
大規模マルチ構造化ベンチマークデータセットの集合であるOpenFWIを提案する。
論文 参考訳(メタデータ) (2021-11-04T15:03:40Z) - Sketch and Scale: Geo-distributed tSNE and UMAP [75.44887265789056]
地理的に分散したデータセット上で機械学習分析を実行することは、急速に発生する問題である。
私たちはSketch and Scale(SnS)という新しいフレームワークを紹介します。
これはCount Sketchデータ構造を利用して、エッジノード上のデータを圧縮し、マスターノード上の縮小サイズスケッチを集約し、サマリ上でバニラtSNEまたはUMAPを実行する。
我々は、この技術が完全に並列で、線形に時間にスケールし、メモリに対数的に分散し、通信し、世界中の複数のデータセンターにまたがる数百万、数十億のデータポイントでデータセットを解析できることを示す。
論文 参考訳(メタデータ) (2020-11-11T22:32:21Z) - Robust Image Retrieval-based Visual Localization using Kapture [10.249293519246478]
視覚的ローカライゼーションのための多用途パイプラインを提案する。
8つの公開データセットで評価し、それらが上位にランクされ、その多くが上位にランクされている。
今後の研究を促進するため、我々は、BSDライセンス下でオープンソースであるKaptureフォーマットで、コード、モデル、およびすべてのデータセットをリリースする。
論文 参考訳(メタデータ) (2020-07-27T21:10:35Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。