論文の概要: Representation Bias in Data: A Survey on Identification and Resolution
Techniques
- arxiv url: http://arxiv.org/abs/2203.11852v2
- Date: Sat, 18 Mar 2023 18:04:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 04:55:01.660021
- Title: Representation Bias in Data: A Survey on Identification and Resolution
Techniques
- Title(参考訳): データにおける表現バイアス:識別と解決技術に関する調査
- Authors: Nima Shahbazi, Yin Lin, Abolfazl Asudeh, H. V. Jagadish
- Abstract要約: データ駆動型アルゴリズムは、それらが扱うデータと同程度にしか機能しないが、データセット、特にソーシャルデータはしばしば、マイノリティを適切に表現できない。
データにおける表現バイアスは、歴史的差別から、データ取得と作成方法におけるバイアスのサンプリングまで、さまざまな理由により起こりうる。
本稿では,後日どのように消費されるかに関わらず,表現バイアスをデータセットの特徴として同定し,解決する方法についての文献をレビューする。
- 参考スコア(独自算出の注目度): 26.142021257838564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-driven algorithms are only as good as the data they work with, while
data sets, especially social data, often fail to represent minorities
adequately. Representation Bias in data can happen due to various reasons
ranging from historical discrimination to selection and sampling biases in the
data acquisition and preparation methods. Given that "bias in, bias out", one
cannot expect AI-based solutions to have equitable outcomes for societal
applications, without addressing issues such as representation bias. While
there has been extensive study of fairness in machine learning models,
including several review papers, bias in the data has been less studied. This
paper reviews the literature on identifying and resolving representation bias
as a feature of a data set, independent of how consumed later. The scope of
this survey is bounded to structured (tabular) and unstructured (e.g., image,
text, graph) data. It presents taxonomies to categorize the studied techniques
based on multiple design dimensions and provides a side-by-side comparison of
their properties. There is still a long way to fully address representation
bias issues in data. The authors hope that this survey motivates researchers to
approach these challenges in the future by observing existing work within their
respective domains.
- Abstract(参考訳): データ駆動型アルゴリズムは、それらが扱うデータと同程度にしか機能しないが、データセット、特にソーシャルデータはしばしば、マイノリティを適切に表現できない。
データの表現バイアスは、データ取得および準備方法において、歴史的識別から選択およびサンプリングバイアスまで、さまざまな理由により起こり得る。
バイアス・イン・バイアス・アウト(bias in, bias out)"を考えると、AIベースのソリューションは、表現バイアスのような問題に対処することなく、社会的アプリケーションに公平な結果をもたらすことは期待できない。
いくつかのレビュー論文を含む、機械学習モデルにおける公正性に関する広範な研究があるが、データのバイアスは研究されていない。
本稿では,後日どのように消費されるかに関わらず,表現バイアスをデータセットの特徴として識別・解決する文献をレビューする。
この調査の範囲は構造化(タブラリ)と非構造化(画像、テキスト、グラフなど)のデータに制限されている。
複数の設計次元に基づいて研究手法を分類し、それらの特性を並べて比較する。
データの表現バイアス問題を完全に解決するには、まだまだ長い道のりがあります。
著者らは、この調査が研究者に、それぞれの領域における既存の研究を観察することで、将来これらの課題に取り組む動機を与えることを期待している。
関連論文リスト
- DSAP: Analyzing Bias Through Demographic Comparison of Datasets [4.8741052091630985]
DSAP(Demographic similarity from Auxiliary Profiles)は、2つのデータセットの人口構成を比較するための2段階の手法である。
DSAPは3つの主要なアプリケーションにデプロイすることができる。データセット間での人口統計学的盲点とバイアスの問題の検出と特徴付け、単一のデータセットにおけるデータセットの人口統計学的バイアスの測定、デプロイメントシナリオにおけるデータセットの人口統計学的シフトの測定である。
DSAPの重要な特徴は、明示的な人口統計ラベルなしでデータセットを堅牢に分析し、広範囲の状況に対してシンプルで解釈可能な機能を提供することである。
論文 参考訳(メタデータ) (2023-12-22T11:51:20Z) - Dataset Bias Mitigation in Multiple-Choice Visual Question Answering and
Beyond [93.96982273042296]
視覚言語(VL)理解タスクは、複数の質問を通じて複雑な視覚シーンのモデルによる理解を評価する。
我々は、モデルが様々なVLタスクを適切に理解することなく正しく解決するために、ショートカットとして活用できる2つのデータセットバイアスを特定した。
本稿では,ADS(Adversarial Data Synthesis)を用いて,合成学習データと偏り評価データを生成する。
次に、サンプル内微分に着目して、合成したトレーニングデータ、特に対物データを利用するモデルを支援するために、サンプル内対物訓練(ICT)を導入する。
論文 参考訳(メタデータ) (2023-10-23T08:09:42Z) - Metrics for Dataset Demographic Bias: A Case Study on Facial Expression Recognition [4.336779198334903]
人口統計バイアスの最も顕著な種類は、データセットにおける人口統計群の表現における統計的不均衡である。
我々はこれらの指標を分類するための分類法を開発し、適切な指標を選択するための実践的なガイドを提供する。
この論文は、データセットバイアスを緩和し、AIモデルの公正性と正確性を改善するために、AIと関連する分野の研究者に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-28T11:04:18Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Assessing Demographic Bias Transfer from Dataset to Model: A Case Study
in Facial Expression Recognition [1.5340540198612824]
2つのメトリクスはデータセットの表現バイアスとステレオタイプバイアスに焦点をあて、もう1つはトレーニングされたモデルの残差バイアスに焦点を当てている。
本稿では、一般的なAffectnetデータセットに基づくFER問題に適用することで、メトリクスの有用性を示す。
論文 参考訳(メタデータ) (2022-05-20T09:40:42Z) - Data Representativity for Machine Learning and AI Systems [2.588973722689844]
機械学習モデルを通じてデータから推論を描く場合、データの表現力は不可欠である。
本稿では,AIとサンプリングに関する科学文献におけるデータ表現性について分析する。
論文 参考訳(メタデータ) (2022-03-09T13:34:52Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - A Survey on Bias in Visual Datasets [17.79365832663837]
コンピュータビジョン(CV)は、いくつかのタスクにおいて人間よりも優れた成果を上げている。
CVシステムは、供給されるデータに大きく依存し、そのようなデータ内のバイアスを学習し、増幅することができる。
しかし、現時点では、ビジュアルデータセットのバイアスに関する包括的な調査は行われていない。
論文 参考訳(メタデータ) (2021-07-16T14:16:52Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets [64.76453161039973]
REVISE(Revealing VIsual biaSEs)は、視覚的データセットの調査を支援するツールである。
1)オブジェクトベース,(2)個人ベース,(3)地理ベースという3つの次元に沿った潜在的なバイアスを呈示する。
論文 参考訳(メタデータ) (2020-04-16T23:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。