論文の概要: Open Data Quality Evaluation: A Comparative Analysis of Open Data in
Latvia
- arxiv url: http://arxiv.org/abs/2007.04697v2
- Date: Wed, 15 Jun 2022 08:10:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 21:24:43.367587
- Title: Open Data Quality Evaluation: A Comparative Analysis of Open Data in
Latvia
- Title(参考訳): オープンデータ品質評価:ラトビアにおけるオープンデータの比較分析
- Authors: Anastasija Nikiforova
- Abstract要約: この研究は、どのように(オープンな)データ品質を評価するかについて論じている。
特定のアプローチはいくつかのラトビアオープンデータセットに適用される。
ラトビアのオープンデータや欧州3カ国のオープンデータで検出される共通データ品質の問題も根底にある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays open data is entering the mainstream - it is free available for
every stakeholder and is often used in business decision-making. It is
important to be sure data is trustable and error-free as its quality problems
can lead to huge losses. The research discusses how (open) data quality could
be assessed. It also covers main points which should be considered developing a
data quality management solution. One specific approach is applied to several
Latvian open data sets. The research provides a step-by-step open data sets
analysis guide and summarizes its results. It is also shown there could exist
differences in data quality depending on data supplier (centralized and
decentralized data releases) and, unfortunately, trustable data supplier cannot
guarantee data quality problems absence. There are also underlined common data
quality problems detected not only in Latvian open data but also in open data
of 3 European countries.
- Abstract(参考訳): オープンデータはすべての利害関係者に無料で提供され、ビジネス上の意思決定によく利用される。
品質上の問題が大きな損失につながる可能性があるため、データが信頼でき、エラーフリーであることを保証することは重要です。
この研究は、(オープンな)データ品質の評価方法について議論している。
また、データ品質管理ソリューションの開発を考えるべき主なポイントもカバーしている。
特定のアプローチはいくつかのラトビアオープンデータセットに適用される。
この研究は、ステップバイステップのオープンデータセット分析ガイドを提供し、その結果を要約する。
また,データサプライヤ(集中型および分散型データリリース)によるデータ品質の差異があること,そして,残念ながら信頼性の高いデータサプライヤではデータ品質上の問題の保証ができないことが示されている。
ラトビアのオープンデータだけでなく、欧州3カ国のオープンデータでも検出される共通データ品質の問題も根底にある。
関連論文リスト
- A Survey on Data Markets [73.07800441775814]
より大きな福祉のためのトレーディングデータの増加は、データ市場の台頭につながっている。
データ市場とは、データセットやデータデリバティブを含むデータプロダクトの交換が行われるメカニズムである。
これは、価格やデータの分散など、いくつかの機能が相互作用するコーディネートメカニズムとして機能する。
論文 参考訳(メタデータ) (2024-11-09T15:09:24Z) - A Guide to Misinformation Detection Datasets [5.673951146506489]
このガイドは、高品質なデータを取得し、より効果的な評価を行うためのロードマップを提供することを目的としている。
すべてのデータセットやその他のアーティファクトはhttps://misinfo-datasets.complexdatalab.com/.comで入手できる。
論文 参考訳(メタデータ) (2024-11-07T18:47:39Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - DAVED: Data Acquisition via Experimental Design for Data Markets [25.300193837833426]
本稿では,線形実験設計にインスパイアされたデータ取得問題に対するフェデレートされたアプローチを提案する。
提案手法はラベル付き検証データを必要とせずに予測誤差を低くする。
我々の研究の重要な洞察は、テストセット予測のためのデータ取得の利点を直接見積もる手法が、特に分散市場設定と互換性があることである。
論文 参考訳(メタデータ) (2024-03-20T18:05:52Z) - Enhancing Data Quality in Federated Fine-Tuning of Foundation Models [54.757324343062734]
本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。
このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。
実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-03-07T14:28:04Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - QI2 -- an Interactive Tool for Data Quality Assurance [63.379471124899915]
欧州委員会による計画されたAI法では、データ品質に関する法的要件が規定されている。
複数のデータ品質面におけるデータ品質保証プロセスをサポートする新しいアプローチを導入する。
論文 参考訳(メタデータ) (2023-07-07T07:06:38Z) - Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-17T12:23:38Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Detecting Quality Problems in Data Models by Clustering Heterogeneous
Data Values [1.143020642249583]
不均一なデータ値に現れるデータモデルの品質問題を検出するためのボトムアップ手法を提案する。
選択されたデータフィールドのすべての値は、構文的類似性によってクラスタリングされる。
ドメインの専門家は、実際にデータモデルがどのように使われているかを理解し、データモデルの潜在的な品質問題を導き出すのに役立ちます。
論文 参考訳(メタデータ) (2021-11-12T11:05:18Z) - Open Data Quality [0.0]
提案手法は,いくつかのオープンデータセットに適用し,その品質評価を行う。
このデータが信頼性が高く、エラーのないものであることは、品質上の問題が大きな損失をもたらす可能性があることを保証することが重要です。
論文 参考訳(メタデータ) (2020-07-09T11:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。