論文の概要: AI Data Readiness Inspector (AIDRIN) for Quantitative Assessment of Data Readiness for AI
- arxiv url: http://arxiv.org/abs/2406.19256v1
- Date: Thu, 27 Jun 2024 15:26:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 13:38:31.435063
- Title: AI Data Readiness Inspector (AIDRIN) for Quantitative Assessment of Data Readiness for AI
- Title(参考訳): AIデータ準備性評価のためのAIデータ準備性検査(AIDRIN)
- Authors: Kaveen Hiniduma, Suren Byna, Jean Luca Bez, Ravi Madduri,
- Abstract要約: ガベージ・イン・ガベージ・アウト(Garbage in Garbage Out)は、人工知能(AI)など、様々な分野のコンピュータ科学者によって広く合意された引用である。
AIのデータ"可読性"を評価するための標準的な方法やフレームワークはありません。
AIDRINは、文献で利用可能な幅広い準備性次元をカバーするフレームワークである。
- 参考スコア(独自算出の注目度): 0.8553254686016967
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: "Garbage In Garbage Out" is a universally agreed quote by computer scientists from various domains, including Artificial Intelligence (AI). As data is the fuel for AI, models trained on low-quality, biased data are often ineffective. Computer scientists who use AI invest a considerable amount of time and effort in preparing the data for AI. However, there are no standard methods or frameworks for assessing the "readiness" of data for AI. To provide a quantifiable assessment of the readiness of data for AI processes, we define parameters of AI data readiness and introduce AIDRIN (AI Data Readiness Inspector). AIDRIN is a framework covering a broad range of readiness dimensions available in the literature that aid in evaluating the readiness of data quantitatively and qualitatively. AIDRIN uses metrics in traditional data quality assessment such as completeness, outliers, and duplicates for data evaluation. Furthermore, AIDRIN uses metrics specific to assess data for AI, such as feature importance, feature correlations, class imbalance, fairness, privacy, and FAIR (Findability, Accessibility, Interoperability, and Reusability) principle compliance. AIDRIN provides visualizations and reports to assist data scientists in further investigating the readiness of data. The AIDRIN framework enhances the efficiency of the machine learning pipeline to make informed decisions on data readiness for AI applications.
- Abstract(参考訳): ガベージ・イン・ガベージ・アウト(Garbage In Garbage Out)は、人工知能(AI)など、様々な分野のコンピュータ科学者によって広く合意された引用である。
データがAIの燃料であるため、低品質、偏りのあるデータに基づいてトレーニングされたモデルは、しばしば非効率である。
AIを使用するコンピュータ科学者は、AIのためのデータの準備にかなりの時間と労力を費やしている。
しかし、AIのためのデータの“準備”を評価するための標準的な方法やフレームワークは存在しない。
AIプロセスのデータ準備性を評価するために、AIデータ準備性のパラメータを定義し、AIDRIN(AI Data Readiness Inspector)を導入する。
AIDRINは、文献で利用可能な幅広い準備性次元をカバーするフレームワークであり、定量的かつ質的にデータの準備性を評価するのに役立つ。
AIDRINは、データ評価に完全性、外れ値、重複値などの従来のデータ品質評価にメトリクスを使用する。
さらに、AIDRINは、機能の重要性、特徴相関、クラス不均衡、公正性、プライバシ、FAIR(Findability、Accessibility、Interoperability、Reusability)の原則準拠など、AIのデータ評価に特有のメトリクスを使用する。
AIDRINは、データサイエンティストがデータの準備性をさらに調査するのを補助する可視化とレポートを提供する。
AIDRINフレームワークは、機械学習パイプラインの効率を高め、AIアプリケーションのデータ準備性に関する情報決定を行う。
関連論文リスト
- Data Readiness for AI: A 360-Degree Survey [0.9343816282846432]
粗悪な品質データは不正確で非効率なAIモデルを生成する。
データ品質の改善に多くの研究開発努力が費やされている。
本稿では、構造化データセットと非構造化データセットのためのAI(DRAI)メトリクスのためのデータ準備性の分類法を提案する。
論文 参考訳(メタデータ) (2024-04-08T15:19:57Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Data-centric Artificial Intelligence: A Survey [47.24049907785989]
近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。
本稿では,データ中心型AIの必要性について論じ,続いて3つの一般的なデータ中心型目標の全体像を考察する。
これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査である、と私たちは信じています。
論文 参考訳(メタデータ) (2023-03-17T17:44:56Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Enabling AI-Generated Content (AIGC) Services in Wireless Edge Networks [68.00382171900975]
無線エッジネットワークでは、不正に生成されたコンテンツの送信はネットワークリソースを不要に消費する可能性がある。
我々は、AIGC-as-a-serviceの概念を示し、エッジネットワークにAをデプロイする際の課題について議論する。
最適なASP選択のための深層強化学習可能なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-09T09:30:23Z) - Data-Centric Artificial Intelligence [2.5874041837241304]
データ中心の人工知能(データ中心のAI)は、効率的で効率的なAIベースのシステムを構築する上で、データの体系的な設計とエンジニアリングが不可欠であることを強調する新しいパラダイムである。
関連する用語を定義し、データ中心のパラダイムとモデル中心のパラダイムを対比するための重要な特徴を提供し、データ中心のAIのためのフレームワークを導入します。
論文 参考訳(メタデータ) (2022-12-22T16:41:03Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z) - Certifiable Artificial Intelligence Through Data Fusion [7.103626867766158]
本稿では,人工知能(AI)システムの採用,フィールド化,保守に関する課題をレビューし,提案する。
画像データ融合により、精度対距離を考慮したAI物体認識精度を支援する。
論文 参考訳(メタデータ) (2021-11-03T03:34:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。