論文の概要: Data Readiness for AI: A 360-Degree Survey
- arxiv url: http://arxiv.org/abs/2404.05779v1
- Date: Mon, 8 Apr 2024 15:19:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 18:48:28.615504
- Title: Data Readiness for AI: A 360-Degree Survey
- Title(参考訳): AIのためのデータ準備:360度調査
- Authors: Kaveen Hiniduma, Suren Byna, Jean Luca Bez,
- Abstract要約: 粗悪な品質データは不正確で非効率なAIモデルを生成する。
データ品質の改善に多くの研究開発努力が費やされている。
本稿では、構造化データセットと非構造化データセットのためのAI(DRAI)メトリクスのためのデータ準備性の分類法を提案する。
- 参考スコア(独自算出の注目度): 0.9343816282846432
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data are the critical fuel for Artificial Intelligence (AI) models. Poor quality data produces inaccurate and ineffective AI models that may lead to incorrect or unsafe use. Checking for data readiness is a crucial step in improving data quality. Numerous R&D efforts have been spent on improving data quality. However, standardized metrics for evaluating data readiness for use in AI training are still evolving. In this study, we perform a comprehensive survey of metrics used for verifying AI's data readiness. This survey examines more than 120 papers that are published by ACM Digital Library, IEEE Xplore, other reputable journals, and articles published on the web by prominent AI experts. This survey aims to propose a taxonomy of data readiness for AI (DRAI) metrics for structured and unstructured datasets. We anticipate that this taxonomy can lead to new standards for DRAI metrics that would be used for enhancing the quality and accuracy of AI training and inference.
- Abstract(参考訳): データは人工知能(AI)モデルにとって重要な燃料である。
粗悪な品質データは不正確で非効率なAIモデルを生成し、不正確または不安全な使用につながる可能性がある。
データ準備性をチェックすることは、データ品質を改善するための重要なステップである。
データ品質の改善に多くの研究開発努力が費やされている。
しかし、AIトレーニングで使用するデータ準備性を評価するための標準化されたメトリクスはまだ進化している。
本研究では、AIのデータ準備性を検証するために使用されるメトリクスの総合的な調査を行う。
この調査では、ACM Digital Library、IEEE Xplore、その他の信頼できるジャーナルが発行する120以上の論文と、著名なAI専門家がWeb上で公開した記事を調査している。
この調査は、構造化データセットと非構造化データセットのためのAI(DRAI)メトリクスのためのデータ準備性の分類法を提案することを目的としている。
我々はこの分類が、AIトレーニングと推論の品質と精度を高めるために使われるDRAIメトリクスの新しい標準につながることを予測している。
関連論文リスト
- Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts [0.0]
AIフラグメントを備えた膨大な数の検出器とコレクションが出現し、いくつかの検出方法は認識品質を99.9%まで向上させた。
検出器は実際に非常に信頼性が高いのか、あるいは評価データセットの質が低いことから高いベンチマークスコアを得るのか?
本稿では,AI生成コンテンツ検出専用のコンペからのデータセットを体系的にレビューし,AI生成フラグメントを含むデータセットの品質を評価する手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T17:59:57Z) - AI Data Readiness Inspector (AIDRIN) for Quantitative Assessment of Data Readiness for AI [0.8553254686016967]
ガベージ・イン・ガベージ・アウト(Garbage in Garbage Out)は、人工知能(AI)など、様々な分野のコンピュータ科学者によって広く合意された引用である。
AIのデータ"可読性"を評価するための標準的な方法やフレームワークはありません。
AIDRINは、文献で利用可能な幅広い準備性次元をカバーするフレームワークである。
論文 参考訳(メタデータ) (2024-06-27T15:26:39Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - RLBoost: Boosting Supervised Models using Deep Reinforcement Learning [0.0]
RLBoostは、深層強化学習戦略を用いて、特定のデータセットを評価し、新しいデータの品質を推定できるモデルを得るアルゴリズムである。
論文の結果から, このモデルでは, LOO, DataShapley, DVRLなどの最先端アルゴリズムよりも, より優れた, より安定した結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-23T14:38:33Z) - Data-centric Artificial Intelligence: A Survey [47.24049907785989]
近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。
本稿では,データ中心型AIの必要性について論じ,続いて3つの一般的なデータ中心型目標の全体像を考察する。
これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査である、と私たちは信じています。
論文 参考訳(メタデータ) (2023-03-17T17:44:56Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。