論文の概要: Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection
- arxiv url: http://arxiv.org/abs/2308.12885v2
- Date: Wed, 27 Sep 2023 14:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 21:43:47.840101
- Title: Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection
- Title(参考訳): collect, measure, repeat: 責任あるaiデータ収集の信頼性因子
- Authors: Oana Inel, Tim Draws and Lora Aroyo
- Abstract要約: AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
- 参考スコア(独自算出の注目度): 8.12993269922936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid entry of machine learning approaches in our daily activities and
high-stakes domains demands transparency and scrutiny of their fairness and
reliability. To help gauge machine learning models' robustness, research
typically focuses on the massive datasets used for their deployment, e.g.,
creating and maintaining documentation for understanding their origin, process
of development, and ethical considerations. However, data collection for AI is
still typically a one-off practice, and oftentimes datasets collected for a
certain purpose or application are reused for a different problem.
Additionally, dataset annotations may not be representative over time, contain
ambiguous or erroneous annotations, or be unable to generalize across issues or
domains. Recent research has shown these practices might lead to unfair,
biased, or inaccurate outcomes. We argue that data collection for AI should be
performed in a responsible manner where the quality of the data is thoroughly
scrutinized and measured through a systematic set of appropriate metrics. In
this paper, we propose a Responsible AI (RAI) methodology designed to guide the
data collection with a set of metrics for an iterative in-depth analysis of the
factors influencing the quality and reliability} of the generated data. We
propose a granular set of measurements to inform on the internal reliability of
a dataset and its external stability over time. We validate our approach across
nine existing datasets and annotation tasks and four content modalities. This
approach impacts the assessment of data robustness used for AI applied in the
real world, where diversity of users and content is eminent. Furthermore, it
deals with fairness and accountability aspects in data collection by providing
systematic and transparent quality analysis for data collections.
- Abstract(参考訳): 日々の活動や高い領域における機械学習アプローチの急速な導入は、その公正さと信頼性の透明性と精査を要求する。
機械学習モデルの堅牢性を評価するために、研究は通常、デプロイメントに使用される膨大なデータセット(例えば、その起源、開発プロセス、倫理的考慮事項を理解するためのドキュメントの作成と保守)に焦点を当てる。
しかし、AIのデータ収集は一般的には1回限りのプラクティスであり、特定の目的のために収集されたデータセットやアプリケーションが異なる問題のために再利用されることが多い。
加えて、データセットのアノテーションは時間とともに代表されない、あいまいで誤ったアノテーションを含んでいる、あるいは問題やドメインをまたいで一般化できない場合がある。
最近の研究では、これらのプラクティスが不公平、偏見、あるいは不正確な結果をもたらす可能性があることが示されている。
我々は、AIのデータ収集は、データの品質を徹底的に精査し、適切なメトリクスの体系的なセットを通じて測定する責任ある方法で行うべきであると論じる。
本稿では,生成されたデータの品質と信頼性に影響を与える要因を反復的に詳細に分析するために,データ収集を一連の指標で導くための責任あるai(rai)手法を提案する。
本稿では,データセットの内部信頼性と時間経過に伴う外部安定性を知らせる粒度測定手法を提案する。
既存の9つのデータセットとアノテーションタスクと4つのコンテンツモダリティにまたがるアプローチを検証する。
このアプローチは、ユーザとコンテンツの多様性が引き起こされる現実世界でaiに適用されるデータロバスト性の評価に影響する。
さらに、データコレクションに対して体系的で透明な品質分析を提供することで、データ収集における公平性と説明責任の側面も扱う。
関連論文リスト
- Towards Explainable Automated Data Quality Enhancement without Domain Knowledge [0.0]
我々は,任意のデータセットにおけるデータ品質問題を自動的に評価し,修正するための包括的フレームワークを提案する。
私たちの主な目的は、欠如、冗長性、不整合という3つの基本的な欠陥に対処することです。
統計的手法と機械学習アルゴリズムを統合するハイブリッドアプローチを採用する。
論文 参考訳(メタデータ) (2024-09-16T10:08:05Z) - Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。
本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。
この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文 参考訳(メタデータ) (2024-04-26T09:51:24Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Data AUDIT: Identifying Attribute Utility- and Detectability-Induced
Bias in Task Models [8.420252576694583]
医用画像データセットの厳密で定量的なスクリーニングのための第1の手法を提案する。
提案手法は,データセット属性に関連するリスクを,検出性と実用性の観点から分解する。
本手法を用いて, ほぼ知覚不能なバイアス誘発アーティファクトを確実に同定するスクリーニング手法を提案する。
論文 参考訳(メタデータ) (2023-04-06T16:50:15Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Towards Handling Uncertainty-at-Source in AI -- A Review and Next Steps
for Interval Regression [6.166295570030645]
本稿では,近年の成長領域である区間値データの線形回帰に着目した。
我々は,最先端手法の詳細な分析を行い,特性の異なるデータセットに適用した場合の動作,利点,落とし穴を明らかにする。
論文 参考訳(メタデータ) (2021-04-15T05:31:10Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。