論文の概要: Towards Explainable Automated Data Quality Enhancement without Domain Knowledge
- arxiv url: http://arxiv.org/abs/2409.10139v1
- Date: Mon, 16 Sep 2024 10:08:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 16:00:03.485280
- Title: Towards Explainable Automated Data Quality Enhancement without Domain Knowledge
- Title(参考訳): ドメイン知識のない説明可能なデータ品質向上に向けて
- Authors: Djibril Sarr,
- Abstract要約: 我々は,任意のデータセットにおけるデータ品質問題を自動的に評価し,修正するための包括的フレームワークを提案する。
私たちの主な目的は、欠如、冗長性、不整合という3つの基本的な欠陥に対処することです。
統計的手法と機械学習アルゴリズムを統合するハイブリッドアプローチを採用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the era of big data, ensuring the quality of datasets has become increasingly crucial across various domains. We propose a comprehensive framework designed to automatically assess and rectify data quality issues in any given dataset, regardless of its specific content, focusing on both textual and numerical data. Our primary objective is to address three fundamental types of defects: absence, redundancy, and incoherence. At the heart of our approach lies a rigorous demand for both explainability and interpretability, ensuring that the rationale behind the identification and correction of data anomalies is transparent and understandable. To achieve this, we adopt a hybrid approach that integrates statistical methods with machine learning algorithms. Indeed, by leveraging statistical techniques alongside machine learning, we strike a balance between accuracy and explainability, enabling users to trust and comprehend the assessment process. Acknowledging the challenges associated with automating the data quality assessment process, particularly in terms of time efficiency and accuracy, we adopt a pragmatic strategy, employing resource-intensive algorithms only when necessary, while favoring simpler, more efficient solutions whenever possible. Through a practical analysis conducted on a publicly provided dataset, we illustrate the challenges that arise when trying to enhance data quality while keeping explainability. We demonstrate the effectiveness of our approach in detecting and rectifying missing values, duplicates and typographical errors as well as the challenges remaining to be addressed to achieve similar accuracy on statistical outliers and logic errors under the constraints set in our work.
- Abstract(参考訳): ビッグデータの時代、データセットの品質を保証することは、さまざまな領域でますます重要になっている。
テキストデータと数値データの両方に焦点をあて、特定の内容にかかわらず、任意のデータセットにおけるデータ品質問題を自動的に評価し、修正するための包括的なフレームワークを提案する。
私たちの主な目的は、欠如、冗長性、不整合という3つの基本的な欠陥に対処することです。
このアプローチの中心には、説明可能性と解釈可能性の両方に対する厳格な要求があり、データ異常の識別と修正の背後にある根拠が透明で理解可能であることを保証する。
これを実現するために、統計的手法と機械学習アルゴリズムを統合するハイブリッドアプローチを採用する。
実際、機械学習と並んで統計的手法を活用することで、精度と説明可能性のバランスを保ち、ユーザーが評価プロセスを信頼し理解できるようにする。
データ品質評価プロセスの自動化に関する課題、特に時間効率と精度の面では、我々は実用的戦略を採用しています。
公開データセットで実施した実践的な分析を通じて、説明可能性を維持しながらデータ品質を高めようとする際に生じる課題について説明する。
本研究は, 欠落値, 重複値, タイポグラフィーエラーの検出と修正におけるアプローチの有効性を実証し, また, 作業の制約の下で, 統計的外れ値と論理的誤りの類似した精度を達成するために, 対処すべき課題について述べる。
関連論文リスト
- Optimisation Strategies for Ensuring Fairness in Machine Learning: With and Without Demographics [4.662958544712181]
本稿では,機械学習フェアネスにおけるオープンな問題に対処するための2つの形式的枠組みを紹介する。
あるフレームワークでは、オペレータ値の最適化とmin-maxの目的が時系列問題の不正性に対処するために使用される。
第2のフレームワークでは、一般的に使用されるデータセットにおいて、性別や人種などのセンシティブな属性を欠くという課題に対処する。
論文 参考訳(メタデータ) (2024-11-13T22:29:23Z) - AdapFair: Ensuring Continuous Fairness for Machine Learning Operations [7.909259406397651]
本稿では、入力データの最適な公正な変換を見つけるために設計されたデバイアス化フレームワークを提案する。
正規化フローを活用して、効率的な情報保存データ変換を可能にします。
閉形式勾配計算を用いた効率的な最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-23T15:01:47Z) - Data Valuation with Gradient Similarity [1.997283751398032]
データ評価アルゴリズムは、与えられた予測タスクへの貢献または重要性に基づいて、データセット内の各サンプルの価値を定量化する。
DVGS(Data Valuation with Gradient similarity)と呼ばれる既存の手法に代わる単純な方法を提案する。
当社のアプローチでは,低品質なデータを迅速かつ正確に識別することが可能で,データクリーニング作業における専門家の知識や手作業による介入の必要性を低減できる。
論文 参考訳(メタデータ) (2024-05-13T22:10:00Z) - Uncertainty for Active Learning on Graphs [70.44714133412592]
不確実性サンプリングは、機械学習モデルのデータ効率を改善することを目的とした、アクティブな学習戦略である。
予測の不確実性を超えた不確実性サンプリングをベンチマークし、他のアクティブラーニング戦略に対する大きなパフォーマンスギャップを強調します。
提案手法は,データ生成プロセスの観点から基幹的ベイズ不確実性推定法を開発し,不確実性サンプリングを最適クエリへ導く上での有効性を実証する。
論文 参考訳(メタデータ) (2024-05-02T16:50:47Z) - Achievable Fairness on Your Data With Utility Guarantees [16.78730663293352]
機械学習の公平性において、異なるセンシティブなグループ間の格差を最小限に抑えるトレーニングモデルは、しばしば精度を低下させる。
本稿では,各データセットに適合する公平性-正確性トレードオフ曲線を近似する計算効率のよい手法を提案する。
そこで我々は,モデルフェアネスを監査するための堅牢な枠組みを実践者に提供し,評価の不確実性を定量化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-27T00:59:32Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。