論文の概要: Paper2Data: Large-Scale LLM Extraction and Metadata Structuring of Global Urban Data from Scientific Literature
- arxiv url: http://arxiv.org/abs/2604.16317v1
- Date: Mon, 09 Feb 2026 13:24:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.877405
- Title: Paper2Data: Large-Scale LLM Extraction and Metadata Structuring of Global Urban Data from Scientific Literature
- Title(参考訳): 論文2Data: 学術文献からの大都市データの大規模LCM抽出とメタデータ構造化
- Authors: Runwen You, Tong Xia, Jingzhi Wang, Jiankun Zhang, Tengyao Tu, Jinghua Piao, Yi Chang, Yong Li,
- Abstract要約: textitUrbanDataMinerは、15,000以上のNature関連出版物から抽出された6万以上の都市データセットのデータセットレベルの検索とフィルタリングをサポートする。
textitPaper2Dataは、科学論文におけるデータセットの参照を自動的に識別し、統一された都市データメタデータスキーマを使用してそれらを構造化する。
textitUrbanDataMinerは、Googleのような汎用検索エンジンで簡単に発見できないデータセットの9%以上を検索できる。
- 参考スコア(独自算出の注目度): 20.05631006931984
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Urban data support a wide range of applications across multiple disciplines. However, at the global scale, there is no unified platform for urban data discovery. As a result, researchers often have to manually search through websites or scientific literature to identify relevant datasets. To address this problem, we curate an open urban data discovery portal, \textit{UrbanDataMiner}, which supports dataset-level search and filtering over more than 60{,}000 urban datasets extracted from over 15{,}000 Nature-affiliated publications. \textit{UrbanDataMiner} is enabled by \textit{Paper2Data}, a novel large-scale LLM-driven pipeline that automatically identifies dataset mentions in scientific papers and structures them using a unified urban data metadata schema. Human-annotated evaluation demonstrates that \textit{Paper2Data} achieves high recall (approximately 90\%) in dataset identification and high field-level precision (above 80\%). In addition, \textit{UrbanDataMiner} can retrieve over 9\% of datasets that are not easily discoverable through general-purpose search engines such as Google. Overall, our work provides the first large-scale, literature-derived infrastructure for urban data discovery and enables more systematic and reusable data-driven research across disciplines. Our code and data are publicly available\footnote{https://github.com/Yourunwen/Paper2Data}.
- Abstract(参考訳): 都市データは、様々な分野にわたる幅広いアプリケーションをサポートする。
しかし、世界規模では、都市データ発見のための統一されたプラットフォームは存在しない。
その結果、研究者はしばしば、関連するデータセットを特定するために、ウェブサイトや科学文献を手動で検索する必要がある。
この問題を解決するために、オープンな都市データ発見ポータルである \textit{UrbanDataMiner} をキュレートする。これは、データセットレベルの検索をサポートし、15{,}000以上のネイチャー関連出版物から抽出された60{,}000以上の都市データセットをフィルタリングする。
\textit{UrbanDataMiner}は、科学論文におけるデータセットの参照を自動的に識別し、統一された都市データメタデータスキーマを使用してそれらを構築する、新しい大規模LLM駆動パイプラインである。
人間によるアノテート評価は、データセットの識別とフィールドレベルの精度(80 %以上)において、 \textit{Paper2Data} が高いリコール(約90 %)を達成することを示した。
さらに \textit{UrbanDataMiner} は,Google などの汎用検索エンジンでは容易に検出できないデータセットの 9 % 以上を検索することができる。
全体として、我々の研究は、都市データ発見のための最初の大規模で文献由来のインフラを提供し、より体系的で再利用可能なデータ駆動研究を可能にする。
私たちのコードとデータは公開されています。
関連論文リスト
- AutoDataset: A Lightweight System for Continuous Dataset Discovery and Search [14.021475049020962]
AutoDatasetは、リアルタイムデータセットの検出と検索のための自動化システムである。
arXivを監視して、新たに公開された研究から直接データセットを検出し、インデックスする。
研究者が新たにリリースしたデータセットを見つけるのに必要な時間を著しく短縮し、データセット発見効率を最大80%向上させることが示されている。
論文 参考訳(メタデータ) (2026-03-07T16:01:38Z) - Multi-Disciplinary Dataset Discovery from Citation-Verified Literature Contexts [0.0]
本稿では,学術論文の引用文脈からデータセットを抽出する文献駆動フレームワークを提案する。
提案手法は,大規模引用コンテキスト抽出,スキーマ誘導型データセット認識,証明保存エンティティ解決を併用する。
コード、評価データセット、結果はGitHubで公開しています。
論文 参考訳(メタデータ) (2026-01-08T16:46:06Z) - Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。
DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文 参考訳(メタデータ) (2025-09-29T17:23:08Z) - Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - CC-GPX: Extracting High-Quality Annotated Geospatial Data from Common Crawl [0.07499722271664144]
Common Crawl (CC) コーパスは2008年以来9.5ペタバイト以上のデータを含む最大のオープンウェブクローリングデータセットである。
本稿では,CC内のGPXファイルから注釈付きユーザ生成トラックを抽出する効率的なパイプラインを提案する。
得られたマルチモーダルデータセットには、人間による記述の1,416ペアと、最新のCCリリース6つのMultiLineStringベクターデータが含まれている。
論文 参考訳(メタデータ) (2024-05-17T18:31:26Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z) - A Large Dataset of Historical Japanese Documents with Complex Layouts [5.343406649012619]
HJDatasetは、複雑なレイアウトを持つ日本古文書の大規模なデータセットである。
レイアウト要素アノテーションには7つのタイプがある。
レイアウト要素を抽出する半ルール法を開発し、その結果を人間の検査員が確認する。
論文 参考訳(メタデータ) (2020-04-18T18:38:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。