論文の概要: Detecting Quality Problems in Data Models by Clustering Heterogeneous
Data Values
- arxiv url: http://arxiv.org/abs/2111.06661v1
- Date: Fri, 12 Nov 2021 11:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 14:12:16.066373
- Title: Detecting Quality Problems in Data Models by Clustering Heterogeneous
Data Values
- Title(参考訳): 不均一データ値のクラスタリングによるデータモデルの品質問題の検出
- Authors: Viola Wenz, Arno Kesper, Gabriele Taentzer
- Abstract要約: 不均一なデータ値に現れるデータモデルの品質問題を検出するためのボトムアップ手法を提案する。
選択されたデータフィールドのすべての値は、構文的類似性によってクラスタリングされる。
ドメインの専門家は、実際にデータモデルがどのように使われているかを理解し、データモデルの潜在的な品質問題を導き出すのに役立ちます。
- 参考スコア(独自算出の注目度): 1.143020642249583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data is of high quality if it is fit for its intended use. The quality of
data is influenced by the underlying data model and its quality. One major
quality problem is the heterogeneity of data as quality aspects such as
understandability and interoperability are impaired. This heterogeneity may be
caused by quality problems in the data model. Data heterogeneity can occur in
particular when the information given is not structured enough and just
captured in data values, often due to missing or non-suitable structure in the
underlying data model. We propose a bottom-up approach to detecting quality
problems in data models that manifest in heterogeneous data values. It supports
an explorative analysis of the existing data and can be configured by domain
experts according to their domain knowledge. All values of a selected data
field are clustered by syntactic similarity. Thereby an overview of the data
values' diversity in syntax is provided. It shall help domain experts to
understand how the data model is used in practice and to derive potential
quality problems of the data model. We outline a proof-of-concept
implementation and evaluate our approach using cultural heritage data.
- Abstract(参考訳): 意図した用途に適合するならば、データは高品質である。
データの品質は、基礎となるデータモデルとその品質の影響を受けます。
主要な品質問題のひとつは、データの不均一性であり、理解可能性や相互運用性が損なわれている。
この不均一性は、データモデルの品質問題によって引き起こされる可能性がある。
データの不均一性は、与えられた情報が十分に構造化されておらず、データ値にキャプチャされる場合に特に起こり得る。
不均一なデータ値に現れるデータモデルの品質問題を検出するためのボトムアップ手法を提案する。
既存のデータの探索分析をサポートし、ドメインの知識に応じてドメインの専門家によって設定できる。
選択されたデータフィールドのすべての値は、構文的類似性によってクラスタリングされる。
これにより、データ値の構文の多様性の概要を提供する。
ドメインの専門家は、実際にデータモデルがどのように使われているかを理解し、データモデルの潜在的な品質問題を導き出すのに役立ちます。
概念実証を概説し,文化遺産データを用いたアプローチを評価する。
関連論文リスト
- Attribute-Based Semantic Type Detection and Data Quality Assessment [0.5735035463793008]
本研究では,属性に基づくセマンティック型検出とデータ品質評価を中心とした,革新的な手法を提案する。
属性ラベル内の意味情報とルールベースの分析と包括的フォーマット・省略辞書を組み合わせることで,本手法は実用的な意味型分類システムを導入する。
最先端のセマンティック型検出システムであるSherlockとの比較分析により,本手法の利点が示された。
論文 参考訳(メタデータ) (2024-10-04T09:22:44Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - Enhancing Data Quality in Federated Fine-Tuning of Foundation Models [54.757324343062734]
本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。
このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。
実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-03-07T14:28:04Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Variational Selective Autoencoder: Learning from Partially-Observed
Heterogeneous Data [45.23338389559936]
本研究では,部分観測された異種データから表現を学習するための変分選択型オートエンコーダ(VSAE)を提案する。
vsaeは、観測データ、観測されていないデータ、およびインプテーションマスクの合同分布をモデル化することで、異種データの潜在依存関係を学習する。
その結果、データ生成や計算を含むさまざまな下流タスクの統一モデルが実現される。
論文 参考訳(メタデータ) (2021-02-25T04:39:13Z) - Data Quality Evaluation using Probability Models [0.0]
以上の結果から, 単純な善/悪の学習例に基づいて, データの質を予測する能力は正確であることが示唆された。
論文 参考訳(メタデータ) (2020-09-14T18:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。