論文の概要: Data Commons
- arxiv url: http://arxiv.org/abs/2309.13054v1
- Date: Fri, 8 Sep 2023 00:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-01 12:24:03.547357
- Title: Data Commons
- Title(参考訳): データコモンズ
- Authors: Ramanathan V. Guha, Prashanth Radhakrishnan, Bo Xu, Wei Sun, Carolyn
Au, Ajai Tirumali, Muhammad J. Amjad, Samantha Piekos, Natalie Diaz, Jennifer
Chen, Julia Wu, Prem Ramaswami, James Manyika
- Abstract要約: Data Commonsは、共通のスキーマでデータをパブリッシュし、Data Commons APIを使用して相互運用する、サイトの分散ネットワークである。
本稿では、主要なデプロイメントのいくつかであるData Commonsのアーキテクチャを説明し、今後の作業の方向性を強調します。
- 参考スコア(独自算出の注目度): 4.568270630281101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Publicly available data from open sources (e.g., United States Census Bureau
(Census), World Health Organization (WHO), Intergovernmental Panel on Climate
Change (IPCC)) are vital resources for policy makers, students and researchers
across different disciplines. Combining data from different sources requires
the user to reconcile the differences in schemas, formats, assumptions, and
more. This data wrangling is time consuming, tedious and needs to be repeated
by every user of the data. Our goal with Data Commons (DC) is to help make
public data accessible and useful to those who want to understand this data and
use it to solve societal challenges and opportunities. We do the data
processing and make the processed data widely available via standard schemas
and Cloud APIs. Data Commons is a distributed network of sites that publish
data in a common schema and interoperate using the Data Commons APIs. Data from
different Data Commons can be joined easily. The aggregate of these Data
Commons can be viewed as a single Knowledge Graph. This Knowledge Graph can
then be searched over using Natural Language questions utilizing advances in
Large Language Models. This paper describes the architecture of Data Commons,
some of the major deployments and highlights directions for future work.
- Abstract(参考訳): オープンソースのデータ(例えば、アメリカ合衆国国勢調査局(census)、世界保健機関(who)、気候変動に関する政府間パネル(ipcc))は、さまざまな分野の政策立案者、学生、研究者にとって重要な資源である。
異なるソースからのデータを組み合わせるには、ユーザーはスキーマ、フォーマット、仮定などの違いを精査する必要がある。
このデータラングリングは時間がかかり、面倒で、すべてのユーザが繰り返す必要があります。
Data Commons(DC)の目標は、このデータを理解し、それを社会的な課題や機会を解決するために利用する人々にとって、公開データをアクセスしやすく役立てることです。
データ処理を行い、標準的なスキーマとCloud APIを通じて処理データを広く利用します。
Data Commonsは、共通のスキーマでデータをパブリッシュし、Data Commons APIを使用して相互運用する、サイトの分散ネットワークである。
異なるData Commonsのデータを簡単に結合できる。
これらのデータコモンの集合は単一の知識グラフと見なすことができる。
この知識グラフは、大規模言語モデルの進歩を利用した自然言語質問を用いて検索することができる。
本稿では,データコモンズのアーキテクチャ,主要なデプロイメント,今後の作業の方向性について述べる。
関連論文リスト
- How to Drill Into Silos: Creating a Free-to-Use Dataset of Data Subject Access Packages [0.0]
欧州連合(EU)の一般データ保護規則は、個人データへのアクセス権を強化した。
コントローラが提供する被写体アクセス要求パッケージ(SARP)を実際に使用する可能性は非常に制限されている。
このデータセットは一般に提供され、将来、SARPの実用化に向けた新しいアプローチの研究および比較の出発点として機能する。
論文 参考訳(メタデータ) (2024-07-05T12:39:51Z) - Large-Scale Multipurpose Benchmark Datasets For Assessing Data-Driven Deep Learning Approaches For Water Distribution Networks [41.94295877935867]
この研究は、いくつかの小規模かつ中規模のパブリックな水分配ネットワーク(WDN)を含むデータセットのコレクションを提供する。
通常の条件下で運用されているWDNの合計1,394,400時間がコミュニティで利用可能である。
論文 参考訳(メタデータ) (2024-04-23T11:58:40Z) - On the development of an application for the compilation of global sea
level changes [0.0]
提案された解決策は、研究者が直面している問題のいくつかを解決するWebアプリケーションを開発することである。
このアプリケーションは、テーブルの作成、マップの表示、グラフの描画によって、データのクエリ、処理、視覚化を支援する。
論文 参考訳(メタデータ) (2024-02-04T18:45:33Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Packaging code for reproducible research in the public sector [0.0]
jtstatsプロジェクトは、大規模で複雑なデータセットをインポート、処理、視覚化するためのRとPythonパッケージで構成されている。
Jtstatsは、パブリックセクター内外において、ドメイン固有のパッケージが再現可能な研究を可能にする方法を示している。
論文 参考訳(メタデータ) (2023-05-25T16:07:24Z) - A Multi-Format Transfer Learning Model for Event Argument Extraction via
Variational Information Bottleneck [68.61583160269664]
イベント引数抽出(EAE)は、テキストから所定の役割を持つ引数を抽出することを目的としている。
変動情報のボトルネックを考慮したマルチフォーマット変換学習モデルを提案する。
3つのベンチマークデータセットに対して広範な実験を行い、EAE上での新たな最先端性能を得る。
論文 参考訳(メタデータ) (2022-08-27T13:52:01Z) - DeepShovel: An Online Collaborative Platform for Data Extraction in
Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。
DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。
14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文 参考訳(メタデータ) (2022-02-21T12:18:08Z) - HeteroQA: Learning towards Question-and-Answering through Multiple
Information Sources via Heterogeneous Graph Modeling [50.39787601462344]
コミュニティ質問回答(Community Question Answering, CQA)は、Eコマースやオンラインユーザコミュニティなど、多くのシナリオで利用することができる、明確に定義されたタスクである。
CQAの手法のほとんどは、知識を抽出し、ユーザの質問に答えるために記事やウィキペディアしか含まない。
ユーザコミュニティに複数の情報ソース(MIS)を組み込んで回答を自動的に生成する問合せ対応の異種グラフ変換器を提案する。
論文 参考訳(メタデータ) (2021-12-27T10:16:43Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。