論文の概要: Principles for Open Data Curation: A Case Study with the New York City 311 Service Request Data
- arxiv url: http://arxiv.org/abs/2502.08649v1
- Date: Tue, 14 Jan 2025 12:06:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-16 05:32:47.911272
- Title: Principles for Open Data Curation: A Case Study with the New York City 311 Service Request Data
- Title(参考訳): オープンデータキュレーションの原則:New York City 311 Service Request Dataによるケーススタディ
- Authors: David Hussey, Jun Yan,
- Abstract要約: ニューヨーク市(NYC)は、2012年にオープンデータ法が制定されて以来、この運動の最前線にある。
現在、ポータルは2700のデータセットをホストしており、さまざまな領域で研究するための重要なリソースとなっている。
オープンデータの効果的な利用は、データ品質とユーザビリティに大きく依存する。
- 参考スコア(独自算出の注目度): 2.3464946883680864
- License:
- Abstract: In the early 21st century, the open data movement began to transform societies and governments by promoting transparency, innovation, and public engagement. The City of New York (NYC) has been at the forefront of this movement since the enactment of the Open Data Law in 2012, creating the NYC Open Data portal. The portal currently hosts 2,700 datasets, serving as a crucial resource for research across various domains, including health, urban development, and transportation. However, the effective use of open data relies heavily on data quality and usability, challenges that remain insufficiently addressed in the literature. This paper examines these challenges via a case study of the NYC 311 Service Request dataset, identifying key issues in data validity, consistency, and curation efficiency. We propose a set of data curation principles, tailored for government-released open data, to address these challenges. Our findings highlight the importance of harmonized field definitions, streamlined storage, and automated quality checks, offering practical guidelines for improving the reliability and utility of open datasets.
- Abstract(参考訳): 21世紀初頭、オープンデータ運動は、透明性、革新、公的な関与を促進することで、社会や政府を変革し始めた。
ニューヨーク市(NYC)は、2012年にオープンデータ法が制定されて以来、この動きの最前線にある。
ポータルは現在2700のデータセットをホストしており、健康、都市開発、交通など、さまざまな分野の研究のための重要なリソースとなっている。
しかし、オープンデータの効果的な利用は、データ品質とユーザビリティに大きく依存している。
本稿では,これらの課題を,NYC 311 Service Request データセットのケーススタディを通じて検討し,データの妥当性,一貫性,キュレーション効率といった重要な問題を特定する。
我々は、これらの課題に対処するために、政府がリリースしたオープンデータに適した一連のデータキュレーション原則を提案する。
我々の研究は、オープンデータセットの信頼性と有用性を改善するための実践的なガイドラインを提供するため、調和したフィールド定義、合理化されたストレージ、自動品質チェックの重要性を強調した。
関連論文リスト
- Differentially Private Data Release on Graphs: Inefficiencies and Unfairness [48.96399034594329]
本稿では,ネットワーク情報公開の文脈における偏見と不公平性に対する差別的プライバシの影響を特徴づける。
ネットワーク構造が全員に知られているネットワークリリースの問題を考えるが、エッジの重みをプライベートにリリースする必要がある。
我々の研究は、これらのネットワーク化された決定問題におけるプライバシーに起因する偏見と不公平性に関する理論的根拠と実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-08-08T08:37:37Z) - Future and AI-Ready Data Strategies: Response to DOC RFI on AI and Open Government Data Assets [6.659894897434807]
以下は、AIとOpen Government Data Assetsに関する米国商務省の情報要求(RFI)に対する回答である。
当社は、組織やデータの共有に関する公的洞察を求める取り組みについて、省に感謝する。
弊社の回答では、AIと商務省のOpen Government Data Assetsに対するベストプラクティスと重要な考察を概説する。
論文 参考訳(メタデータ) (2024-07-26T07:31:32Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Lessons from the AdKDD'21 Privacy-Preserving ML Challenge [57.365745458033075]
W3Cの顕著な提案では、過去のディスプレイの集計された、差別化されたプライベートなレポートを通じてのみ広告信号を共有することができる。
この提案を広く研究するために、AdKDD'21でオープンなプライバシ保護機械学習チャレンジが行われた。
重要な発見は、大量の集約されたデータの小さな集合が存在する場合の学習モデルは驚くほど効率的で安価であることである。
論文 参考訳(メタデータ) (2022-01-31T11:09:59Z) - Federated Learning for Big Data: A Survey on Opportunities,
Applications, and Future Directions [5.124701758921822]
本稿では,ビッグデータサービスやアプリケーションにおけるフェデレーション学習の利用状況について調査する。
我々は、ビッグデータ取得、ビッグデータストレージ、ビッグデータ分析、ビッグデータプライバシ保護など、主要なビッグデータサービスにおけるFLの使用についてレビューする。
論文 参考訳(メタデータ) (2021-10-08T14:36:43Z) - Protecting Privacy and Transforming COVID-19 Case Surveillance Datasets
for Public Use [0.4462475518267084]
CDCは、個人レベルの未確認データを管轄区域から収集し、現在800万件以上の記録を保有している。
データ要素は、有用性、公開要求、およびプライバシーの影響に基づいて含まれた。
機密情報の再識別や暴露のリスクを低減するため、特定のフィールド値が抑制された。
論文 参考訳(メタデータ) (2021-01-13T14:24:20Z) - Open Data Quality Evaluation: A Comparative Analysis of Open Data in
Latvia [0.0]
この研究は、どのように(オープンな)データ品質を評価するかについて論じている。
特定のアプローチはいくつかのラトビアオープンデータセットに適用される。
ラトビアのオープンデータや欧州3カ国のオープンデータで検出される共通データ品質の問題も根底にある。
論文 参考訳(メタデータ) (2020-07-09T10:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。