論文の概要: Challenges in Annotating Datasets to Quantify Bias in Under-represented
Society
- arxiv url: http://arxiv.org/abs/2309.08624v1
- Date: Mon, 11 Sep 2023 22:24:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-24 04:16:16.278034
- Title: Challenges in Annotating Datasets to Quantify Bias in Under-represented
Society
- Title(参考訳): 未発表社会におけるバイアス定量化のためのデータセット注釈作成の課題
- Authors: Vithya Yogarajan, Gillian Dobbie, Timothy Pistotti, Joshua Bensemann,
Kobe Knowles
- Abstract要約: ベンチマークバイアスデータセットは、二項性分類と倫理的・人種的考察のために開発された。
その結果, ニュージーランド (NZ) の人口を対象に, 偏見を定量化するための注釈付きデータセットが欠如していることから, ニュージーランド (NZ) 人口のベンチマークデータセットを作成した。
本研究は、手動のアノテーションプロセスの概要、遭遇した課題の概要、学習した教訓、今後の研究への提言について述べる。
- 参考スコア(独自算出の注目度): 7.9342597513806865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in artificial intelligence, including the development of
highly sophisticated large language models (LLM), have proven beneficial in
many real-world applications. However, evidence of inherent bias encoded in
these LLMs has raised concerns about equity. In response, there has been an
increase in research dealing with bias, including studies focusing on
quantifying bias and developing debiasing techniques. Benchmark bias datasets
have also been developed for binary gender classification and ethical/racial
considerations, focusing predominantly on American demographics. However, there
is minimal research in understanding and quantifying bias related to
under-represented societies. Motivated by the lack of annotated datasets for
quantifying bias in under-represented societies, we endeavoured to create
benchmark datasets for the New Zealand (NZ) population. We faced many
challenges in this process, despite the availability of three annotators. This
research outlines the manual annotation process, provides an overview of the
challenges we encountered and lessons learnt, and presents recommendations for
future research.
- Abstract(参考訳): 高度に洗練された大規模言語モデル(llm)の開発を含む人工知能の最近の進歩は、多くの現実世界のアプリケーションで有益であることが証明されている。
しかし、これらのLSMにエンコードされた固有のバイアスの証拠は、株式に関する懸念を引き起こしている。
これに対し、偏見の定量化と偏見の手法の開発に焦点をあてた研究など、偏見を扱う研究が増加している。
ベンチマークバイアスデータセットは、二元性分類と倫理的/人種的考察のためにも開発されており、主にアメリカの人口動態に焦点を当てている。
しかし、少数社会に関連するバイアスの理解と定量化に関する研究は最小限である。
貧弱な社会におけるバイアスを定量化するための注釈付きデータセットの欠如により、我々はニュージーランド(NZ)人口のベンチマークデータセットの作成に取り組んだ。
3つの注釈が利用できるにもかかわらず、このプロセスで多くの課題に直面しました。
本研究は,手動アノテーションプロセスの概要,遭遇した課題の概観,学んだ教訓,今後の研究へのレコメンデーションについて述べる。
関連論文リスト
- GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Tackling Bias in Pre-trained Language Models: Current Trends and
Under-represented Societies [6.831519625084861]
本研究は,言語モデルにおけるバイアスの同定と緩和に用いられている手法の現在の傾向と限界を総合する調査である。
偏見問題に対処する現在のプラクティスは、表現不足の社会のニーズに対処するために単に"プラグイン"することはできない、と我々は主張する。
論文 参考訳(メタデータ) (2023-12-03T21:25:10Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Survey of Social Bias in Vision-Language Models [65.44579542312489]
調査の目的は、NLP、CV、VLをまたいだ事前学習モデルにおける社会バイアス研究の類似点と相違点について、研究者に高いレベルの洞察を提供することである。
ここで提示された発見とレコメンデーションはMLコミュニティの利益となり、公平でバイアスのないAIモデルの開発を促進する。
論文 参考訳(メタデータ) (2023-09-24T15:34:56Z) - Bias and Fairness in Large Language Models: A Survey [76.65471160523444]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Metrics for Dataset Demographic Bias: A Case Study on Facial Expression
Recognition [1.5340540198612824]
人口統計バイアスの最も顕著な種類は、データセットにおける人口統計群の表現における統計的不均衡である。
我々はこれらの指標を分類するための分類法を開発し、適切な指標を選択するための実践的なガイドを提供する。
この論文は、データセットバイアスを緩和し、AIモデルの公正性と正確性を改善するために、AIと関連する分野の研究者に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-28T11:04:18Z) - Assessing Demographic Bias Transfer from Dataset to Model: A Case Study
in Facial Expression Recognition [1.5340540198612824]
2つのメトリクスはデータセットの表現バイアスとステレオタイプバイアスに焦点をあて、もう1つはトレーニングされたモデルの残差バイアスに焦点を当てている。
本稿では、一般的なAffectnetデータセットに基づくFER問題に適用することで、メトリクスの有用性を示す。
論文 参考訳(メタデータ) (2022-05-20T09:40:42Z) - Representation Bias in Data: A Survey on Identification and Resolution
Techniques [26.142021257838564]
データ駆動型アルゴリズムは、それらが扱うデータと同程度にしか機能しないが、データセット、特にソーシャルデータはしばしば、マイノリティを適切に表現できない。
データにおける表現バイアスは、歴史的差別から、データ取得と作成方法におけるバイアスのサンプリングまで、さまざまな理由により起こりうる。
本稿では,後日どのように消費されるかに関わらず,表現バイアスをデータセットの特徴として同定し,解決する方法についての文献をレビューする。
論文 参考訳(メタデータ) (2022-03-22T16:30:22Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。