論文の概要: When Does Demographic Information Help? Data and Modeling Regimes for Perspective-Aware Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2605.27313v1
- Date: Tue, 26 May 2026 17:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.493272
- Title: When Does Demographic Information Help? Data and Modeling Regimes for Perspective-Aware Hate Speech Detection
- Title(参考訳): デモグラフィック情報はいつに役立つのか? 視点認識型ヘイト音声検出のためのデータとモデリングレジーム
- Authors: Weibin Cai, Reza Zafarani,
- Abstract要約: データ分割プロパティとモデリングフレームワークの両方の機能として、人口増加を分析します。
人口増加は、低いトレーニング不一致、高いテスト不一致、きめ細かいあいまいさの測定、十分なトレーニングデータ、より大きな人口重なりのある体制に集中している。
- 参考スコア(独自算出の注目度): 3.685453775072903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Demographic information is often used to model annotator perspectives in subjective tasks such as hate speech detection, but its benefit is inconsistent: it improves performance in some settings and behaves as noise in others. This paper asks when demographic features help. We analyze demographic gain as a function of both data split properties and modeling frameworks. For data splits, we measure annotator disagreement, namely how often annotators assign different labels to the same example, along with training size and train-test demographic coverage. We find that demographic gains concentrate in regimes with low training disagreement, high test disagreement, fine-grained ambiguity measurement, sufficient training data, and greater demographic overlap. Motivated by these regimes, we introduce a gated demographic residual model that treats demographics as a selective adjustment to text-only predictions. Experiments on MHS and POPQUORN show that this design is effective, especially on high disagreement or low confidence examples. Overall, our results suggest that demographics should not be assumed useful by default; their value depends jointly on the data regime and the modeling framework.
- Abstract(参考訳): デモグラフィック情報は、ヘイトスピーチ検出のような主観的なタスクにおけるアノテータの視点をモデル化するためにしばしば使用されるが、その利点は一貫性がない。
この論文は、人口統計学的特徴がいつ役に立つのかを問う。
データ分割プロパティとモデリングフレームワークの両方の機能として、人口増加を分析します。
データ分割では、アノテータの不一致、すなわち、アノテータが異なるラベルを同じ例に割り当てる頻度、トレーニングサイズとトレインテストによる人口調査を計測する。
人口増加は、低いトレーニング不一致、高いテスト不一致、きめ細かいあいまいさの測定、十分なトレーニングデータ、より大きな人口重なりのある体制に集中している。
これらの制度を動機として、人口統計学をテキストのみの予測に対する選択的な調整として扱う、人口統計学的残差モデルを導入する。
MHSとPOPQUORNの実験では、この設計は特に高い不一致や低信頼の例において有効であることが示されている。
全体として、我々の結果は、人口統計学はデフォルトでは有用ではなく、その価値はデータ構造とモデリングフレームワークに大きく依存していることを示唆している。
関連論文リスト
- Demographic Probing of Large Language Models Lacks Construct Validity [16.29607362682272]
大規模言語モデルが人口統計特性にどのように適応するかを考察する。
このアプローチは通常、グループメンバーシップのシグナルとして、分離された単一の人口統計学的キューを使用する。
その結果、同じ人口集団を表現するための手がかりは、モデル行動に部分的に重なる変化しか生じないことがわかった。
論文 参考訳(メタデータ) (2026-01-26T13:41:35Z) - Assessing the Reliability of LLMs Annotations in the Context of Demographic Bias and Model Explanation [5.907945985868999]
本研究では,アノテータの人口統計学的特徴がテキストコンテンツと比較してラベル決定に与える影響について検討した。
一般化線形混合モデルを用いて、この差分率を定量化し、観測された分散のごく一部(8%)が人口統計因子であることを示した。
次に、ジェネレーティブAI(GenAI)モデルの信頼性をアノテータとして評価し、人口統計学的パーソナによる指導が人間の判断との整合性を改善するかどうかを具体的に評価する。
論文 参考訳(メタデータ) (2025-07-17T14:00:13Z) - CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition [49.27067541740956]
モデルアーキテクチャの変更や人口統計情報への依存を伴わずにバイアスを緩和する信頼性指向音声強調脱バイアス手法であるCO-VADAを提案する。
CO-VADAはトレーニングデータに存在するバイアスパターンを反映したトレーニングサンプルを特定し、無関係な属性を変更してサンプルを生成するために音声変換を適用する。
我々のフレームワークは様々なSERモデルや音声変換ツールと互換性があり、SERシステムの公平性を改善するためのスケーラブルで実用的なソリューションとなっている。
論文 参考訳(メタデータ) (2025-06-06T13:25:56Z) - Accurate and Data-Efficient Toxicity Prediction when Annotators Disagree [1.3749490831384268]
アノテータが同意しない場合、個々のアノテータによって与えられるラベルを予測すれば、従来のラベル集約によって見落とされたニュアンスをキャプチャすることができる。
テキストの毒性に基づいて,個々のアノテータ評価を予測するための3つのアプローチを提案する。
評価予測のための人口統計情報の有用性について検討する。
論文 参考訳(メタデータ) (2024-10-16T04:26:40Z) - Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。
偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文 参考訳(メタデータ) (2024-03-14T15:58:36Z) - Sensitivity, Performance, Robustness: Deconstructing the Effect of
Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。
ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-09-13T15:42:06Z) - Metrics for Dataset Demographic Bias: A Case Study on Facial Expression Recognition [4.336779198334903]
人口統計バイアスの最も顕著な種類は、データセットにおける人口統計群の表現における統計的不均衡である。
我々はこれらの指標を分類するための分類法を開発し、適切な指標を選択するための実践的なガイドを提供する。
この論文は、データセットバイアスを緩和し、AIモデルの公正性と正確性を改善するために、AIと関連する分野の研究者に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-28T11:04:18Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。