論文の概要: On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms
- arxiv url: http://arxiv.org/abs/2310.15848v4
- Date: Sun, 18 Aug 2024 05:05:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 04:07:00.126281
- Title: On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms
- Title(参考訳): 公正性,プライバシ,規制規範を考慮した応答型機械学習データセットについて
- Authors: Surbhi Mittal, Kartik Thakral, Richa Singh, Mayank Vatsa, Tamar Glaser, Cristian Canton Ferrer, Tal Hassner,
- Abstract要約: AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 56.119374302685934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial Intelligence (AI) has made its way into various scientific fields, providing astonishing improvements over existing algorithms for a wide variety of tasks. In recent years, there have been severe concerns over the trustworthiness of AI technologies. The scientific community has focused on the development of trustworthy AI algorithms. However, machine and deep learning algorithms, popular in the AI community today, depend heavily on the data used during their development. These learning algorithms identify patterns in the data, learning the behavioral objective. Any flaws in the data have the potential to translate directly into algorithms. In this study, we discuss the importance of Responsible Machine Learning Datasets and propose a framework to evaluate the datasets through a responsible rubric. While existing work focuses on the post-hoc evaluation of algorithms for their trustworthiness, we provide a framework that considers the data component separately to understand its role in the algorithm. We discuss responsible datasets through the lens of fairness, privacy, and regulatory compliance and provide recommendations for constructing future datasets. After surveying over 100 datasets, we use 60 datasets for analysis and demonstrate that none of these datasets is immune to issues of fairness, privacy preservation, and regulatory compliance. We provide modifications to the ``datasheets for datasets" with important additions for improved dataset documentation. With governments around the world regularizing data protection laws, the method for the creation of datasets in the scientific community requires revision. We believe this study is timely and relevant in today's era of AI.
- Abstract(参考訳): 人工知能(AI)は様々な科学分野に進出し、様々なタスクのために既存のアルゴリズムよりも驚くほど改善されている。
近年、AI技術の信頼性に対する深刻な懸念が高まっている。
科学コミュニティは信頼できるAIアルゴリズムの開発に注力してきた。
しかし、今日のAIコミュニティで人気がある機械学習とディープラーニングのアルゴリズムは、開発に使われているデータに大きく依存している。
これらの学習アルゴリズムは、データのパターンを特定し、行動目標を学習する。
データ中のあらゆる欠陥は、直接アルゴリズムに翻訳する可能性がある。
本研究では,Responsible Machine Learning Datasetsの重要性を論じ,責任のあるルーリックを用いてデータセットを評価するためのフレームワークを提案する。
既存の研究は、アルゴリズムの信頼性に対するポストホックな評価に重点を置いているが、我々は、アルゴリズムにおけるその役割を理解するために、データコンポーネントを別々に検討するフレームワークを提供する。
フェアネス、プライバシ、規制コンプライアンスのレンズを通して責任あるデータセットについて議論し、将来のデータセットを構築するためのレコメンデーションを提供する。
100以上のデータセットを調査した後、分析に60のデータセットを使用し、公平性やプライバシ保護、規制コンプライアンスといった問題に対して、これらのデータセットが影響を受けないことを実証します。
私たちは、データセットのドキュメントを改善するために重要な追加を加えて、“データセット用のデータシート”を変更します。
世界中の政府がデータ保護法を規則化しているため、科学コミュニティでデータセットを作成するには修正が必要である。
この研究は、今日のAIの時代において、タイムリーで重要なものだと考えています。
関連論文リスト
- Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - Privacy-Preserving Graph Machine Learning from Data to Computation: A
Survey [67.7834898542701]
我々は,グラフ機械学習のプライバシ保護手法の見直しに重点を置いている。
まずプライバシ保護グラフデータを生成する方法を検討する。
次に,プライバシ保護情報を送信する方法について述べる。
論文 参考訳(メタデータ) (2023-07-10T04:30:23Z) - rWISDM: Repaired WISDM, a Public Dataset for Human Activity Recognition [0.0]
HAR(Human Activity Recognition)は、医療、運動競技、スマートシティ、スマートホームといった様々な分野に応用されているため、近年の科学的研究において注目されている。
本稿では,他の研究者が公開データセットに類似した問題を同定し,修正する手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T13:55:50Z) - Data-centric Artificial Intelligence: A Survey [47.24049907785989]
近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。
本稿では,データ中心型AIの必要性について論じ,続いて3つの一般的なデータ中心型目標の全体像を考察する。
これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査である、と私たちは信じています。
論文 参考訳(メタデータ) (2023-03-17T17:44:56Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Towards Accountability for Machine Learning Datasets: Practices from
Software Engineering and Infrastructure [9.825840279544465]
機械学習を強化するデータセットは、しばしば使われ、共有され、再使用される。
本稿では、意思決定と説明責任をサポートするデータセット開発透明性のための厳格なフレームワークを紹介する。
論文 参考訳(メタデータ) (2020-10-23T01:57:42Z) - Bringing the People Back In: Contesting Benchmark Machine Learning
Datasets [11.00769651520502]
機械学習データの系譜である研究プログラムを概説し、これらのデータセットの作成方法と理由について検討する。
機械学習におけるベンチマークデータセットを基盤として運用する方法を解説し、これらのデータセットについて4つの研究課題を提起する。
論文 参考訳(メタデータ) (2020-07-14T23:22:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。