論文の概要: CC-GPX: Extracting High-Quality Annotated Geospatial Data from Common Crawl
- arxiv url: http://arxiv.org/abs/2405.11039v3
- Date: Thu, 29 Aug 2024 16:57:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 18:57:30.977214
- Title: CC-GPX: Extracting High-Quality Annotated Geospatial Data from Common Crawl
- Title(参考訳): CC-GPX:Common Crawlによる高品質アノテート地理空間データの抽出
- Authors: Ilya Ilyankou, Meihui Wang, Stefano Cavazzi, James Haworth,
- Abstract要約: Common Crawl (CC) コーパスは2008年以来9.5ペタバイト以上のデータを含む最大のオープンウェブクローリングデータセットである。
本稿では,CC内のGPXファイルから注釈付きユーザ生成トラックを抽出する効率的なパイプラインを提案する。
得られたマルチモーダルデータセットには、人間による記述の1,416ペアと、最新のCCリリース6つのMultiLineStringベクターデータが含まれている。
- 参考スコア(独自算出の注目度): 0.07499722271664144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Common Crawl (CC) corpus is the largest open web crawl dataset containing 9.5+ petabytes of data captured since 2008. The dataset is instrumental in training large language models, and as such it has been studied for (un)desirable content, and distilled for smaller, domain-specific datasets. However, to our knowledge, no research has been dedicated to using CC as a source of annotated geospatial data. In this paper, we introduce an efficient pipeline to extract annotated user-generated tracks from GPX files found in CC, and the resulting multimodal dataset with 1,416 pairings of human-written descriptions and MultiLineString vector data from the 6 most recent CC releases. The dataset can be used to study people's outdoor activity patterns, the way people talk about their outdoor experiences, as well as for developing trajectory generation or track annotation models, or for various other problems in place of synthetically generated routes. Our reproducible code is available on GitHub: https://github.com/ilyankou/cc-gpx
- Abstract(参考訳): Common Crawl (CC) コーパスは2008年以来9.5ペタバイト以上のデータを含む最大のオープンウェブクローリングデータセットである。
データセットは、大規模な言語モデルのトレーニングに役立ち、(望ましくない)コンテンツのために研究され、より小さなドメイン固有のデータセットのために蒸留されている。
しかし、我々の知る限りでは、注釈付き地理空間データの源としてCCを用いる研究は行われていない。
本稿では,CC で発見された GPX ファイルから注釈付きユーザ生成トラックを抽出する効率的なパイプラインと,最新の CC リリース6 から,人文記述と MultiLineString ベクトルデータのペア化によるマルチモーダルデータセットを提案する。
このデータセットは、人々のアウトドア活動パターン、人々がアウトドア体験について話す方法、軌跡生成やアノテーションモデルの開発、あるいは合成的に生成されたルートの代わりに様々な問題の研究に使用することができる。
再現可能なコードはGitHubで入手可能です。
関連論文リスト
- SEART Data Hub: Streamlining Large-Scale Source Code Mining and Pre-Processing [13.717170962455526]
私たちはSEART Data HubというWebアプリケーションを紹介します。これは、公開GitHubリポジトリからマイニングされたコードを特徴とする大規模データセットを簡単に構築し、事前処理できるWebアプリケーションです。
簡単なWebインターフェースを通じて、研究者はマイニング基準と、実行したい特定の前処理ステップを指定できる。
リクエストを提出すると、ユーザは数時間以内に、必要なデータセットのダウンロードリンク付きのメールを受け取る。
論文 参考訳(メタデータ) (2024-09-27T11:42:19Z) - Quantifying Geospatial in the Common Crawl Corpus [0.07499722271664144]
本稿では,最近のCommon Crawlリリースにおける地理空間データの有効性について,強力な言語モデルであるGemini 1.5を用いて検討する。
CC の Web ドキュメントの 18.7% には座標やアドレスなどの地理空間情報が含まれていると見積もっている。
論文 参考訳(メタデータ) (2024-06-07T14:16:37Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - trajdata: A Unified Interface to Multiple Human Trajectory Datasets [32.93180256927027]
複数の人的トラジェクトリデータセットに対する統一インターフェースであるtrajdataを提案する。
Trajdataは、トラジェクトリとマップデータのためのシンプルで均一で効率的な表現とAPIを提供する。
論文 参考訳(メタデータ) (2023-07-26T02:45:59Z) - GeoDE: a Geographically Diverse Evaluation Dataset for Object
Recognition [31.194474203667042]
GeoDEは地理的に多様なデータセットであり、40のクラスと6つの世界領域から61,940の画像がある。
完全なデータセットとコードはhttps://geodiverse-data-collection.cs.princeton.edu/で公開しています。
論文 参考訳(メタデータ) (2023-01-05T18:21:50Z) - AutoGeoLabel: Automated Label Generation for Geospatial Machine Learning [69.47585818994959]
リモートセンシングデータのためのラベルの自動生成のためのビッグデータ処理パイプラインを評価する。
我々は,大規模データプラットフォームであるIBM PAIRSを用いて,密集都市部でそのようなラベルを動的に生成する。
論文 参考訳(メタデータ) (2022-01-31T20:02:22Z) - Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (2021-09-07T03:59:22Z) - Sketch and Scale: Geo-distributed tSNE and UMAP [75.44887265789056]
地理的に分散したデータセット上で機械学習分析を実行することは、急速に発生する問題である。
私たちはSketch and Scale(SnS)という新しいフレームワークを紹介します。
これはCount Sketchデータ構造を利用して、エッジノード上のデータを圧縮し、マスターノード上の縮小サイズスケッチを集約し、サマリ上でバニラtSNEまたはUMAPを実行する。
我々は、この技術が完全に並列で、線形に時間にスケールし、メモリに対数的に分散し、通信し、世界中の複数のデータセンターにまたがる数百万、数十億のデータポイントでデータセットを解析できることを示す。
論文 参考訳(メタデータ) (2020-11-11T22:32:21Z) - A Large Dataset of Historical Japanese Documents with Complex Layouts [5.343406649012619]
HJDatasetは、複雑なレイアウトを持つ日本古文書の大規模なデータセットである。
レイアウト要素アノテーションには7つのタイプがある。
レイアウト要素を抽出する半ルール法を開発し、その結果を人間の検査員が確認する。
論文 参考訳(メタデータ) (2020-04-18T18:38:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。