論文の概要: Enhancing Machine Learning Performance through Intelligent Data Quality Assessment: An Unsupervised Data-centric Framework
- arxiv url: http://arxiv.org/abs/2502.13198v1
- Date: Tue, 18 Feb 2025 18:01:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:02:14.970859
- Title: Enhancing Machine Learning Performance through Intelligent Data Quality Assessment: An Unsupervised Data-centric Framework
- Title(参考訳): インテリジェントデータ品質評価による機械学習のパフォーマンス向上:教師なしデータ中心フレームワーク
- Authors: Manal Rahal, Bestoun S. Ahmed, Gergely Szabados, Torgny Fornstedt, Jorgen Samuelsson,
- Abstract要約: 不適切なデータ品質は機械学習(ML)の有利なパワーを制限する
本稿では,高品質なデータを特定し,MLシステムの性能を向上させるインテリジェントなデータ中心評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Poor data quality limits the advantageous power of Machine Learning (ML) and weakens high-performing ML software systems. Nowadays, data are more prone to the risk of poor quality due to their increasing volume and complexity. Therefore, tedious and time-consuming work goes into data preparation and improvement before moving further in the ML pipeline. To address this challenge, we propose an intelligent data-centric evaluation framework that can identify high-quality data and improve the performance of an ML system. The proposed framework combines the curation of quality measurements and unsupervised learning to distinguish high- and low-quality data. The framework is designed to integrate flexible and general-purpose methods so that it is deployed in various domains and applications. To validate the outcomes of the designed framework, we implemented it in a real-world use case from the field of analytical chemistry, where it is tested on three datasets of anti-sense oligonucleotides. A domain expert is consulted to identify the relevant quality measurements and evaluate the outcomes of the framework. The results show that the quality-centric data evaluation framework identifies the characteristics of high-quality data that guide the conduct of efficient laboratory experiments and consequently improve the performance of the ML system.
- Abstract(参考訳): 不適切なデータ品質は機械学習(ML)の利点を制限し、高性能なMLソフトウェアシステムを弱めます。
今日では、データは、その量と複雑さの増大により、品質の低下のリスクが高くなっている。
そのため、退屈で時間を要する作業は、MLパイプラインでさらに進む前に、データ準備と改善に入る。
この課題に対処するために,高品質なデータを識別し,MLシステムの性能を向上させるインテリジェントなデータ中心評価フレームワークを提案する。
提案フレームワークは,高品質データと低品質データを区別するために,品質測定のキュレーションと教師なし学習を組み合わせる。
このフレームワークはフレキシブルで汎用的なメソッドを統合するように設計されており、様々なドメインやアプリケーションにデプロイされる。
設計したフレームワークの結果を検証するため,分析化学の分野から実世界のユースケースで実装し,三種類のアンチセンスオリゴヌクレオチドを用いて実験を行った。
ドメインエキスパートは、関連する品質測定を識別し、フレームワークの結果を評価するために相談される。
その結果, 高品質データ評価フレームワークは, 効率的な実験実験を指導し, その結果, MLシステムの性能を向上する, 高品質データの特徴を識別することがわかった。
関連論文リスト
- Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - A Theoretical Framework for AI-driven data quality monitoring in high-volume data environments [1.2753215270475886]
本稿では,高ボリューム環境におけるデータ品質維持の課題に対処するために,AIによるデータ品質監視システムに関する理論的枠組みを提案する。
本稿では,ビッグデータのスケール,速度,多様性の管理における従来の手法の限界について検討し,高度な機械学習技術を活用した概念的アプローチを提案する。
主なコンポーネントは、インテリジェントデータ取り込み層、適応前処理機構、コンテキスト認識機能抽出、AIベースの品質評価モジュールなどである。
論文 参考訳(メタデータ) (2024-10-11T07:06:36Z) - Adaptive Data Quality Scoring Operations Framework using Drift-Aware Mechanism for Industrial Applications [0.0]
本稿では,産業データストリームの動的品質次元がもたらす課題に対処する新しい枠組みを提案する。
このフレームワークは動的変更検出機構を統合し、データ品質の変化を積極的に監視し、適応する。
実験結果は、予測性能と効率的な処理時間を示し、実用的な品質駆動型AIアプリケーションにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2024-08-13T08:32:06Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - A Novel Metric for Measuring Data Quality in Classification Applications
(extended version) [0.0]
データ品質を測定するための新しい指標を紹介し説明する。
この尺度は、分類性能とデータの劣化の相関した進化に基づいている。
各基準の解釈と評価レベルの例を提供する。
論文 参考訳(メタデータ) (2023-12-13T11:20:09Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - QI2 -- an Interactive Tool for Data Quality Assurance [63.379471124899915]
欧州委員会による計画されたAI法では、データ品質に関する法的要件が規定されている。
複数のデータ品質面におけるデータ品質保証プロセスをサポートする新しいアプローチを導入する。
論文 参考訳(メタデータ) (2023-07-07T07:06:38Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。