論文の概要: Are you sure? Measuring models bias in content moderation through uncertainty
- arxiv url: http://arxiv.org/abs/2509.22699v1
- Date: Sun, 21 Sep 2025 08:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.804363
- Title: Are you sure? Measuring models bias in content moderation through uncertainty
- Title(参考訳): 確かか?不確実性によるコンテンツモデレーションにおけるモデルバイアスの測定
- Authors: Alessandra Urbinati, Mirko Lai, Simona Frenda, Marco Antonio Stranisci,
- Abstract要約: 我々は、脆弱なグループに属する人々によって注釈付けされたメッセージの分類における不確実性に基づいて、モデルをベンチマークする教師なしのアプローチを提案する。
コンフォメーション予測手法を用いて計算された不確実性を利用して,女性や非白人アノテータに対する11モデルのバイアスを分析する。
その結果,一部の事前学習モデルでは,予測の信頼性が低い場合でも,少数派からのラベルを高い精度で予測できることがわかった。
- 参考スコア(独自算出の注目度): 41.43421165541282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic content moderation is crucial to ensuring safety in social media. Language Model-based classifiers are being increasingly adopted for this task, but it has been shown that they perpetuate racial and social biases. Even if several resources and benchmark corpora have been developed to challenge this issue, measuring the fairness of models in content moderation remains an open issue. In this work, we present an unsupervised approach that benchmarks models on the basis of their uncertainty in classifying messages annotated by people belonging to vulnerable groups. We use uncertainty, computed by means of the conformal prediction technique, as a proxy to analyze the bias of 11 models against women and non-white annotators and observe to what extent it diverges from metrics based on performance, such as the $F_1$ score. The results show that some pre-trained models predict with high accuracy the labels coming from minority groups, even if the confidence in their prediction is low. Therefore, by measuring the confidence of models, we are able to see which groups of annotators are better represented in pre-trained models and lead the debiasing process of these models before their effective use.
- Abstract(参考訳): ソーシャルメディアの安全性を確保するためには、自動コンテンツモデレーションが不可欠だ。
言語モデルに基づく分類器はこのタスクにますます採用されているが、人種的・社会的偏見が持続していることが示されている。
この問題に対処するためにいくつかのリソースとベンチマークコーパスが開発されたとしても、コンテンツモデレーションにおけるモデルの公平性を測定することは未解決の問題である。
本研究では、脆弱なグループに属する人々によって注釈付けされたメッセージの分類における不確実性に基づいて、モデルをベンチマークする教師なしのアプローチを提案する。
コンフォメーション予測手法を用いて計算された不確実性を利用して、女性や非白人のアノテータに対する11モデルのバイアスを分析し、F_1$スコアなどのパフォーマンスに基づく測定値からどの程度逸脱するかを観察する。
その結果,一部の事前学習モデルでは,予測の信頼性が低い場合でも,少数派からのラベルを高い精度で予測できることがわかった。
したがって、モデルの信頼度を測定することで、アノテータのどのグループが事前訓練されたモデルでより良く表現されているかを確認し、それらのモデルが効果的に使用される前に、これらのモデルの偏りを導くことができる。
関連論文リスト
- Fairness without Sensitive Attributes via Knowledge Sharing [13.141672574114597]
本稿では,信頼度に基づく階層型分類手法であるReckonerを提案する。
実験の結果、ReckonerはCompASデータセットとNew Adultデータセットにおいて、最先端のベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-09-27T06:16:14Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Beyond Confidence: Reliable Models Should Also Consider Atypicality [43.012818086415514]
サンプルやクラスが非典型的であるかとモデルの予測の信頼性との関係について検討する。
非定型入力や非定型クラスの予測は、より過信であり、精度が低いことを示す。
モデルの信頼性だけでなく,不確かさの定量化や性能向上にも非定型性を用いるべきである。
論文 参考訳(メタデータ) (2023-05-29T17:37:09Z) - Statistical Inference for Fairness Auditing [4.318555434063274]
我々は、このタスクを複数の仮説テストの観点から「フェアネス監査」とみなしている。
ブートストラップを用いて,グループ間のパフォーマンス格差を同時にバインドする方法を示す。
本手法は,モデルアンダーパフォーマンスの影響を受けるサブポピュレーションのフラグ付けや,モデルが適切に機能するサブポピュレーションの認証に利用できる。
論文 参考訳(メタデータ) (2023-05-05T17:54:22Z) - De-biasing "bias" measurement [20.049916973204102]
グループワイドモデルの性能格差を測定するために用いられる指標は、それらが表す基礎となる量の統計的偏りの推定値であることを示す。
本稿では,グループ間におけるモデル性能のばらつきの非バイアス推定と不確実性定量化を行う「二重補正分散推定器」を提案する。
論文 参考訳(メタデータ) (2022-05-11T20:51:57Z) - Measuring Fairness Under Unawareness of Sensitive Attributes: A
Quantification-Based Approach [131.20444904674494]
センシティブな属性の無意識下でのグループフェアネスを測定する問題に取り組む。
定量化手法は, フェアネスと無意識の問題に対処するのに特に適していることを示す。
論文 参考訳(メタデータ) (2021-09-17T13:45:46Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。