論文の概要: Open Data Quality
- arxiv url: http://arxiv.org/abs/2007.06540v2
- Date: Wed, 15 Jun 2022 08:20:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 20:56:04.241693
- Title: Open Data Quality
- Title(参考訳): オープンデータの品質
- Authors: Anastasija Nikiforova
- Abstract要約: 提案手法は,いくつかのオープンデータセットに適用し,その品質評価を行う。
このデータが信頼性が高く、エラーのないものであることは、品質上の問題が大きな損失をもたらす可能性があることを保証することが重要です。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The research discusses how (open) data quality could be described, what
should be considered developing a data quality management solution and how it
could be applied to open data to check its quality. The proposed approach
focuses on development of data quality specification which can be executed to
get data quality evaluation results, find errors in data and possible problems
which must be solved. The proposed approach is applied to several open data
sets to evaluate their quality. Open data is very popular, free available for
every stakeholder - it is often used to make business decisions. It is
important to be sure that this data is trustable and error-free as its quality
problems can lead to huge losses.
- Abstract(参考訳): この研究は、(オープンな)データ品質がどのように説明され、データ品質管理ソリューションの開発を考慮すべきこと、そして、その品質をチェックするためにオープンデータに適用できるかを論じている。
提案手法は,データ品質評価結果の取得,データ中の誤りの発見,解決すべき問題の解決に有効なデータ品質仕様の開発に重点を置いている。
提案手法は,いくつかのオープンデータセットに適用して品質評価を行う。
オープンデータは非常に人気があり、すべての利害関係者に無料で提供されています。
品質上の問題が大きな損失につながる可能性があるため、このデータが信頼性とエラーフリーであることを保証することは重要です。
関連論文リスト
- Private, Augmentation-Robust and Task-Agnostic Data Valuation Approach for Data Marketplace [56.78396861508909]
PriArTaは、買い手の既存のデータセットと売り手のデータセットの分布の間の距離を計算するアプローチである。
PriArTaは通信効率が良く、買い手は各売り手からデータセット全体にアクセスすることなくデータセットを評価することができる。
論文 参考訳(メタデータ) (2024-11-01T17:13:14Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - Enhancing Data Quality in Federated Fine-Tuning of Foundation Models [54.757324343062734]
本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。
このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。
実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-03-07T14:28:04Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Analyzing Dataset Annotation Quality Management in the Wild [63.07224587146207]
最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アーティファクトの量は無視できない。
データセット作成プロジェクトに関するプラクティスやガイドラインは存在するが、品質管理の実施方法に関する大規模な分析はまだ行われていない。
論文 参考訳(メタデータ) (2023-07-16T21:22:40Z) - QI2 -- an Interactive Tool for Data Quality Assurance [63.379471124899915]
欧州委員会による計画されたAI法では、データ品質に関する法的要件が規定されている。
複数のデータ品質面におけるデータ品質保証プロセスをサポートする新しいアプローチを導入する。
論文 参考訳(メタデータ) (2023-07-07T07:06:38Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Detecting Quality Problems in Data Models by Clustering Heterogeneous
Data Values [1.143020642249583]
不均一なデータ値に現れるデータモデルの品質問題を検出するためのボトムアップ手法を提案する。
選択されたデータフィールドのすべての値は、構文的類似性によってクラスタリングされる。
ドメインの専門家は、実際にデータモデルがどのように使われているかを理解し、データモデルの潜在的な品質問題を導き出すのに役立ちます。
論文 参考訳(メタデータ) (2021-11-12T11:05:18Z) - Data Quality Evaluation using Probability Models [0.0]
以上の結果から, 単純な善/悪の学習例に基づいて, データの質を予測する能力は正確であることが示唆された。
論文 参考訳(メタデータ) (2020-09-14T18:12:19Z) - Open Data Quality Evaluation: A Comparative Analysis of Open Data in
Latvia [0.0]
この研究は、どのように(オープンな)データ品質を評価するかについて論じている。
特定のアプローチはいくつかのラトビアオープンデータセットに適用される。
ラトビアのオープンデータや欧州3カ国のオープンデータで検出される共通データ品質の問題も根底にある。
論文 参考訳(メタデータ) (2020-07-09T10:43:28Z) - Really Useful Synthetic Data -- A Framework to Evaluate the Quality of
Differentially Private Synthetic Data [2.538209532048867]
プライバシ保護の原則を付加する合成データ生成の最近の進歩は、プライバシ保護の方法で統計情報を共有するための重要なステップである。
データプライバシとデータ品質のトレードオフを最適化するためには、後者について詳しく考える必要があります。
本研究では,応用研究者の視点から,差分的にプライベートな合成データの質を評価する枠組みを開発する。
論文 参考訳(メタデータ) (2020-04-16T16:24:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。