論文の概要: Whose Preferences? Differences in Fairness Preferences and Their Impact on the Fairness of AI Utilizing Human Feedback
- arxiv url: http://arxiv.org/abs/2406.05902v1
- Date: Sun, 9 Jun 2024 19:42:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 17:28:18.738637
- Title: Whose Preferences? Differences in Fairness Preferences and Their Impact on the Fairness of AI Utilizing Human Feedback
- Title(参考訳): 人的フィードバックを活用したAIの公平さと公正さへの影響
- Authors: Emilia Agis Lerner, Florian E. Dorner, Elliott Ash, Naman Goel,
- Abstract要約: 我々は、人種、年齢、政治的スタンス、教育水準、LGBTQ+アノテーターのアイデンティティによって、公平さの選好に大きなギャップを見いだす。
また、テキストで言及された人口統計は、ユーザーがモデレーションにおいて個人の公平さをどう知覚するかに大きな影響を及ぼすことを示した。
- 参考スコア(独自算出の注目度): 8.04095222893591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a growing body of work on learning from human feedback to align various aspects of machine learning systems with human values and preferences. We consider the setting of fairness in content moderation, in which human feedback is used to determine how two comments -- referencing different sensitive attribute groups -- should be treated in comparison to one another. With a novel dataset collected from Prolific and MTurk, we find significant gaps in fairness preferences depending on the race, age, political stance, educational level, and LGBTQ+ identity of annotators. We also demonstrate that demographics mentioned in text have a strong influence on how users perceive individual fairness in moderation. Further, we find that differences also exist in downstream classifiers trained to predict human preferences. Finally, we observe that an ensemble, giving equal weight to classifiers trained on annotations from different demographics, performs better for different demographic intersections; compared to a single classifier that gives equal weight to each annotation.
- Abstract(参考訳): 機械学習システムのさまざまな側面を人間の価値観や好みと整合させるために、人間のフィードバックから学ぶことに注力している。
コンテンツモデレーションにおける公平性の設定について検討し、人間のフィードバックを使って2つのコメント(異なる機密属性グループを参照)をどのように扱うべきかを比較検討する。
ProlificとMTurkから収集された新しいデータセットでは、人種、年齢、政治的スタンス、教育レベル、LGBTQ+アノテータの同一性によって、公平さの選好に大きなギャップがある。
また、テキストで言及された人口統計は、ユーザーがモデレーションにおいて個人の公平さをどう知覚するかに大きな影響を及ぼすことを示した。
さらに、人間の嗜好を予測するために訓練された下流分類器にも相違があることが判明した。
最後に、異なる階層のアノテーションに基づいて訓練された分類器に等しい重量を与えるアンサンブルが、それぞれのアノテーションに等しい重量を与える単一の分類器と比較して、異なる階層の交点に対してより良い性能を発揮することを観察する。
関連論文リスト
- Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Everyone's Voice Matters: Quantifying Annotation Disagreement Using
Demographic Information [11.227630261409706]
本研究では,タスクのテキストとアノテータの階層的背景情報を用いて,アノテータ間の不一致の程度を推定できるかどうかを検討する。
その結果, 性別, 民族, 教育水準などのアノテータの人口統計情報を知ることは, 意見の不一致の予測に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-01-12T14:04:53Z) - Human-Guided Fair Classification for Natural Language Processing [9.652938946631735]
本稿では、教師なしスタイル転送とGPT-3のゼロショット機能を利用して、意味論的に類似した文を生成する方法を示す。
これらのペアの多くは、毒性分類の文脈における公正性に関する人間の直感と一致していることを確認した。
論文 参考訳(メタデータ) (2022-12-20T10:46:40Z) - Deep Learning on a Healthy Data Diet: Finding Important Examples for
Fairness [15.210232622716129]
データ駆動予測ソリューションは、主に商用アプリケーションで使われているが、バイアスやステレオタイプに悩まされる傾向がある。
データ拡張は、トレーニングデータセットに反実例を追加することで、性別バイアスを低減する。
拡張データセットのいくつかの例は、公平性には重要でも有害でもないことを示します。
論文 参考訳(メタデータ) (2022-11-20T22:42:30Z) - Towards Intersectionality in Machine Learning: Including More
Identities, Handling Underrepresentation, and Performing Evaluation [23.661509482014058]
交差性を複数の属性として組み込んだ場合、機械学習パイプラインの3段階に沿って発生する疑問に対処する。
我々は、どの属性ラベルをトレーニングするかを選択する際に、経験的検証でドメイン知識を補うことを提唱する。
規範的含意を考慮せずにデータ不均衡技術の使用を警告する。
論文 参考訳(メタデータ) (2022-05-10T01:00:52Z) - On Disentangled and Locally Fair Representations [95.6635227371479]
人種や性別などのセンシティブなグループに対して公平な方法で分類を行うという課題について検討する。
局所的公正表現を学習し、学習された表現の下で、各サンプルの近傍は感度特性の観点からバランスをとる。
論文 参考訳(メタデータ) (2022-05-05T14:26:50Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - MultiFair: Multi-Group Fairness in Machine Learning [52.24956510371455]
機械学習におけるマルチグループフェアネスの研究(MultiFair)
この問題を解決するために,汎用的なエンドツーエンドのアルゴリズムフレームワークを提案する。
提案するフレームワークは多くの異なる設定に一般化可能である。
論文 参考訳(メタデータ) (2021-05-24T02:30:22Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Towards classification parity across cohorts [16.21248370949611]
この研究は、明示的かつ暗黙的な感度のある特徴にまたがる分類パリティを達成することを目的としている。
言語モデルを用いて学習した個々の言語の埋め込みをクラスタリングすることで、暗黙のコホートを得る。
我々は,コホート間のモデル性能の範囲を最小化することを目的とした損失関数の修正を導入することにより,分類パリティを向上させる。
論文 参考訳(メタデータ) (2020-05-16T16:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。