論文の概要: Data Representativity for Machine Learning and AI Systems
- arxiv url: http://arxiv.org/abs/2203.04706v1
- Date: Wed, 9 Mar 2022 13:34:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 14:00:03.351281
- Title: Data Representativity for Machine Learning and AI Systems
- Title(参考訳): 機械学習とAIシステムのためのデータ表現性
- Authors: Line H. Clemmensen, Rune D. Kj{\ae}rsgaard
- Abstract要約: 機械学習モデルを通じてデータから推論を描く場合、データの表現力は不可欠である。
本稿では,AIとサンプリングに関する科学文献におけるデータ表現性について分析する。
- 参考スコア(独自算出の注目度): 2.588973722689844
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Data representativity is crucial when drawing inference from data through
machine learning models. Scholars have increased focus on unraveling the bias
and fairness in the models, also in relation to inherent biases in the input
data. However, limited work exists on the representativity of samples
(datasets) for appropriate inference in AI systems. This paper analyzes data
representativity in scientific literature related to AI and sampling, and gives
a brief overview of statistical sampling methodology from disciplines like
sampling of physical materials, experimental design, survey analysis, and
observational studies. Different notions of a 'representative sample' exist in
past and present literature. In particular, the contrast between the notion of
a representative sample in the sense of coverage of the input space, versus a
representative sample as a miniature of the target population is of relevance
when building AI systems. Using empirical demonstrations on US Census data, we
demonstrate that the first is useful for providing equality and demographic
parity, and is more robust to distribution shifts, whereas the latter notion is
useful in situations where the purpose is to make historical inference or draw
inference about the underlying population in general, or make better
predictions for the majority in the underlying population. We propose a
framework of questions for creating and documenting data, with data
representativity in mind, as an addition to existing datasheets for datasets.
Finally, we will also like to call for caution of implicit, in addition to
explicit, use of a notion of data representativeness without specific
clarification.
- Abstract(参考訳): 機械学習モデルを通じてデータから推論を描く場合、データの表現力は重要です。
研究者は、入力データの固有のバイアスに関連して、モデルのバイアスと公平性を解き放つことに焦点を絞っている。
しかし、AIシステムにおける適切な推論のためのサンプル(データセット)の表現性には限界がある。
本稿では,aiとサンプリングに関する科学文献におけるデータ表現性を分析し,物理材料のサンプリング,実験設計,サーベイ分析,観察研究などの分野から統計的サンプリング手法を概説する。
「表現的サンプル」という概念は、過去と現在に異なる。
特に、入力空間のカバレッジという意味での代表的サンプルの概念とターゲット人口のミニチュアとしての代表的サンプルとの対比は、aiシステムを構築する際に関連性がある。
米国国勢調査データを用いた実証実験を用いて,第1の考え方は平等と人口格差の付与に有用であり,分布シフトに対してより強固であることを示す一方で,第2の考え方は,歴史的推論を行うことや,基礎となる人口について一般的に推測すること,あるいは下位人口の大多数に対するより良い予測を行うことが目的である場合に有用である。
本稿では,既存のデータシートに加え,データ表現性を念頭に置いて,データ作成と文書化のための質問の枠組みを提案する。
最後に、明示的なデータ代表性の概念を明確化せずに使用することに加えて、暗黙の注意を呼びたいと思います。
関連論文リスト
- Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations [63.52709761339949]
最初に、Fair Forgery Detection(FairFD)データセットと呼ばれる専用のデータセットをコントリビュートし、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。
既存の偽造検出データセットとは異なり、自己構築のFairFDデータセットは、バランスの取れた人種比と、最も大規模な被験者との多様な偽造生成画像を含んでいる。
我々は、偽りの結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。
論文 参考訳(メタデータ) (2024-07-19T14:53:18Z) - Metrics for Dataset Demographic Bias: A Case Study on Facial Expression Recognition [4.336779198334903]
人口統計バイアスの最も顕著な種類は、データセットにおける人口統計群の表現における統計的不均衡である。
我々はこれらの指標を分類するための分類法を開発し、適切な指標を選択するための実践的なガイドを提供する。
この論文は、データセットバイアスを緩和し、AIモデルの公正性と正確性を改善するために、AIと関連する分野の研究者に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-28T11:04:18Z) - The Trade-off between Universality and Label Efficiency of
Representations from Contrastive Learning [32.15608637930748]
2つのデシダラタの間にはトレードオフがあることを示し、同時に両方を達成できない可能性があることを示す。
我々は、理論データモデルを用いて分析を行い、より多様な事前学習データにより、異なるタスクに対してより多様な機能が得られる一方で、タスク固有の機能に重点を置いていないことを示す。
論文 参考訳(メタデータ) (2023-02-28T22:14:33Z) - Deep Learning on a Healthy Data Diet: Finding Important Examples for
Fairness [15.210232622716129]
データ駆動予測ソリューションは、主に商用アプリケーションで使われているが、バイアスやステレオタイプに悩まされる傾向がある。
データ拡張は、トレーニングデータセットに反実例を追加することで、性別バイアスを低減する。
拡張データセットのいくつかの例は、公平性には重要でも有害でもないことを示します。
論文 参考訳(メタデータ) (2022-11-20T22:42:30Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Representation Bias in Data: A Survey on Identification and Resolution
Techniques [26.142021257838564]
データ駆動型アルゴリズムは、それらが扱うデータと同程度にしか機能しないが、データセット、特にソーシャルデータはしばしば、マイノリティを適切に表現できない。
データにおける表現バイアスは、歴史的差別から、データ取得と作成方法におけるバイアスのサンプリングまで、さまざまな理由により起こりうる。
本稿では,後日どのように消費されるかに関わらず,表現バイアスをデータセットの特徴として同定し,解決する方法についての文献をレビューする。
論文 参考訳(メタデータ) (2022-03-22T16:30:22Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - A survey on datasets for fairness-aware machine learning [6.962333053044713]
多くのフェアネス対応機械学習ソリューションが提案されている。
本稿では,フェアネスを意識した機械学習に使用される実世界のデータセットについて概説する。
データセットのバイアスと公平性についてより深く理解するために、探索分析を用いて興味深い関係を考察する。
論文 参考訳(メタデータ) (2021-10-01T16:54:04Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。