論文の概要: Bridging Fairness and Explainability: Can Input-Based Explanations Promote Fairness in Hate Speech Detection?
- arxiv url: http://arxiv.org/abs/2509.22291v1
- Date: Fri, 26 Sep 2025 12:53:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.432455
- Title: Bridging Fairness and Explainability: Can Input-Based Explanations Promote Fairness in Hate Speech Detection?
- Title(参考訳): ブリッジフェアネスと説明可能性: 入力に基づく説明はヘイトスピーチ検出におけるフェアネスを促進するか?
- Authors: Yifan Wang, Mayank Jobanputra, Ji-Ung Lee, Soyoung Oh, Isabel Valera, Vera Demberg,
- Abstract要約: 本研究では,ヘイトスピーチ検出における説明可能性と公平性の関係について,最初の系統的研究を行った。
バイアス付き予測の同定,(2)公正モデルの選択,(3)モデルトレーニング時のバイアス軽減の3つの重要な側面について検討する。
入力に基づく説明は, 偏りのある予測を効果的に検出できるが, 候補の中から公平なモデルを選択するには信頼性が低い。
- 参考スコア(独自算出の注目度): 22.18673021255833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language processing (NLP) models often replicate or amplify social bias from training data, raising concerns about fairness. At the same time, their black-box nature makes it difficult for users to recognize biased predictions and for developers to effectively mitigate them. While some studies suggest that input-based explanations can help detect and mitigate bias, others question their reliability in ensuring fairness. Existing research on explainability in fair NLP has been predominantly qualitative, with limited large-scale quantitative analysis. In this work, we conduct the first systematic study of the relationship between explainability and fairness in hate speech detection, focusing on both encoder- and decoder-only models. We examine three key dimensions: (1) identifying biased predictions, (2) selecting fair models, and (3) mitigating bias during model training. Our findings show that input-based explanations can effectively detect biased predictions and serve as useful supervision for reducing bias during training, but they are unreliable for selecting fair models among candidates.
- Abstract(参考訳): 自然言語処理(NLP)モデルは、しばしば訓練データから社会的偏見を再現または増幅し、公正性に関する懸念を提起する。
同時に、そのブラックボックスの性質は、ユーザがバイアスのある予測を認識するのを難しくし、開発者が効果的にそれらを軽減します。
入力に基づく説明はバイアスの検出と緩和に役立つと示唆する研究もあるが、公平性を保証するための信頼性に疑問を呈する研究もある。
公正なNLPにおける説明可能性に関する既存の研究は、主に質的であり、大規模な定量的分析が限られている。
本研究では,エンコーダのみのモデルとデコーダのみのモデルに着目し,ヘイトスピーチ検出における説明可能性と公平性の関係を初めて体系的に研究する。
本研究では,(1)バイアス付き予測の同定,(2)公正モデルの選択,(3)モデルトレーニング時のバイアス軽減の3つの重要な側面について検討する。
入力に基づく説明は, バイアス予測を効果的に検出し, トレーニング中のバイアス低減に役立つが, 候補の中から公正なモデルを選択するには信頼性が低い。
関連論文リスト
- Whence Is A Model Fair? Fixing Fairness Bugs via Propensity Score Matching [0.49157446832511503]
サンプルデータのトレーニングやテストの方法がフェアネス指標の信頼性に影響を及ぼすかどうかを検討する。
トレーニングデータとテストセットは、しばしば同じ集団からランダムにサンプリングされるため、トレーニングデータに存在するバイアスは、テストデータにまだ存在する可能性がある。
偏見の評価と緩和に適合性スコアマッチングを適用した後処理法であるFairMatchを提案する。
論文 参考訳(メタデータ) (2025-04-23T19:28:30Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - On Comparing Fair Classifiers under Data Bias [42.43344286660331]
本研究では,データ偏差の変化が公正分類器の精度と公平性に及ぼす影響について検討する。
我々の実験は、既存のフェアネスダッシュボードにデータバイアスリスクの尺度を統合する方法を示している。
論文 参考訳(メタデータ) (2023-02-12T13:04:46Z) - Fair Enough: Standardizing Evaluation and Model Selection for Fairness
Research in NLP [64.45845091719002]
現代のNLPシステムは様々なバイアスを示しており、モデル偏見に関する文献が増えている。
本稿では,その現状を解明し,公正学習における意味ある進歩の道筋を立案することを目的とする。
論文 参考訳(メタデータ) (2023-02-11T14:54:00Z) - Fairness and Explainability: Bridging the Gap Towards Fair Model
Explanations [12.248793742165278]
我々は、説明に基づく手続き指向公正の新たな視点を提示することにより、公正性と説明可能性のギャップを埋める。
本稿では,複数の目的を同時に達成する包括的公正性アルゴリズム (CFA) を提案する。
論文 参考訳(メタデータ) (2022-12-07T18:35:54Z) - InterFair: Debiasing with Natural Language Feedback for Fair
Interpretable Predictions [30.246111670391375]
我々は、視覚的に排除するのではなく、機密情報を「公正に」使うのが好ましいと論じている。
凍結予測モデルを用いて2つのインタラクティブなセットアップを探索し、フィードバックをユーザに提供することで、タスクのパフォーマンスとバイアス軽減のバランスがより良く、より公平になることを示す。
論文 参考訳(メタデータ) (2022-10-14T00:54:12Z) - Prisoners of Their Own Devices: How Models Induce Data Bias in
Performative Prediction [4.874780144224057]
偏見のあるモデルは、社会の特定のグループに不均等に害を与える決定を下すことができる。
多くの作業は静的ML環境での不公平さを測定することに費やされているが、動的でパフォーマンスのよい予測は行っていない。
本稿では,データのバイアスを特徴付ける分類法を提案する。
論文 参考訳(メタデータ) (2022-06-27T10:56:04Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。