論文の概要: Towards Accountability for Machine Learning Datasets: Practices from
Software Engineering and Infrastructure
- arxiv url: http://arxiv.org/abs/2010.13561v2
- Date: Sat, 30 Jan 2021 00:12:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 00:30:14.406570
- Title: Towards Accountability for Machine Learning Datasets: Practices from
Software Engineering and Infrastructure
- Title(参考訳): 機械学習データセットのアカウンタビリティに向けて:ソフトウェア工学とインフラストラクチャのプラクティス
- Authors: Ben Hutchinson, Andrew Smart, Alex Hanna, Emily Denton, Christina
Greer, Oddur Kjartansson, Parker Barnes, Margaret Mitchell
- Abstract要約: 機械学習を強化するデータセットは、しばしば使われ、共有され、再使用される。
本稿では、意思決定と説明責任をサポートするデータセット開発透明性のための厳格なフレームワークを紹介する。
- 参考スコア(独自算出の注目度): 9.825840279544465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rising concern for the societal implications of artificial intelligence
systems has inspired demands for greater transparency and accountability.
However the datasets which empower machine learning are often used, shared and
re-used with little visibility into the processes of deliberation which led to
their creation. Which stakeholder groups had their perspectives included when
the dataset was conceived? Which domain experts were consulted regarding how to
model subgroups and other phenomena? How were questions of representational
biases measured and addressed? Who labeled the data? In this paper, we
introduce a rigorous framework for dataset development transparency which
supports decision-making and accountability. The framework uses the cyclical,
infrastructural and engineering nature of dataset development to draw on best
practices from the software development lifecycle. Each stage of the data
development lifecycle yields a set of documents that facilitate improved
communication and decision-making, as well as drawing attention the value and
necessity of careful data work. The proposed framework is intended to
contribute to closing the accountability gap in artificial intelligence
systems, by making visible the often overlooked work that goes into dataset
creation.
- Abstract(参考訳): 人工知能システムの社会的影響に対する懸念が高まり、透明性と説明責任の向上への要求が高まった。
しかし、機械学習の権限を付与するデータセットは、しばしば使われ、共有され、その作成に繋がる審議のプロセスへの可視性がほとんどなく再使用される。
データセットが考案されたとき、どのステークホルダグループにその視点があったか?
サブグループやその他の現象のモデル化方法について、どのドメインの専門家が相談を受けたか?
表現バイアスの問題はどのように測定され対処されたか?
誰がデータにラベルを付けた?
本稿では,意思決定と説明責任をサポートするデータセット開発透明性のための厳密なフレームワークを提案する。
このフレームワークは、データセット開発の循環的、インフラ的、エンジニアリング的な性質を利用して、ソフトウェア開発ライフサイクルからベストプラクティスを引き出す。
データ開発ライフサイクルの各段階では、コミュニケーションと意思決定の改善を促進する一連の文書が作成され、また、注意深いデータ作業の価値と必要性に注意が向けられる。
提案されたフレームワークは、データセット生成にしばしば見過ごされる作業の可視化によって、人工知能システムの説明責任ギャップを埋めることを目的としている。
関連論文リスト
- On Responsible Machine Learning Datasets with Fairness, Privacy, and
Regulatory Norms [58.93352076927003]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Data Cards: Purposeful and Transparent Dataset Documentation for
Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。
データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。
実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文 参考訳(メタデータ) (2022-04-03T13:49:36Z) - A survey on datasets for fairness-aware machine learning [6.962333053044713]
多くのフェアネス対応機械学習ソリューションが提案されている。
本稿では,フェアネスを意識した機械学習に使用される実世界のデータセットについて概説する。
データセットのバイアスと公平性についてより深く理解するために、探索分析を用いて興味深い関係を考察する。
論文 参考訳(メタデータ) (2021-10-01T16:54:04Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z) - Bringing the People Back In: Contesting Benchmark Machine Learning
Datasets [11.00769651520502]
機械学習データの系譜である研究プログラムを概説し、これらのデータセットの作成方法と理由について検討する。
機械学習におけるベンチマークデータセットを基盤として運用する方法を解説し、これらのデータセットについて4つの研究課題を提起する。
論文 参考訳(メタデータ) (2020-07-14T23:22:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。