論文の概要: Towards Conceptualization of "Fair Explanation": Disparate Impacts of
anti-Asian Hate Speech Explanations on Content Moderators
- arxiv url: http://arxiv.org/abs/2310.15055v1
- Date: Mon, 23 Oct 2023 15:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 18:58:10.085497
- Title: Towards Conceptualization of "Fair Explanation": Disparate Impacts of
anti-Asian Hate Speech Explanations on Content Moderators
- Title(参考訳): フェア説明」の概念化に向けて:コンテンツモデレーターに対する反アジア的ヘイトスピーチ説明の異なる影響
- Authors: Tin Nguyen, Jiannan Xu, Aayushi Roy, Hal Daum\'e III, Marine Carpuat
- Abstract要約: 我々は,「公正」である説明を構成するものを特徴付けることを提案する。
評価手法は, 精度とラベル時間だけでなく, 異なるユーザグループに対する説明の心理的影響も考慮し, 「公正説明」の新たな評価法を定式化する。
概して、サリエンシマップは、反ファクト的な説明よりも、異なる影響(グループ)と個人の不公平性の証拠が少ないことが分かりました。
- 参考スコア(独自算出の注目度): 12.52988111359215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research at the intersection of AI explainability and fairness has
focused on how explanations can improve human-plus-AI task performance as
assessed by fairness measures. We propose to characterize what constitutes an
explanation that is itself "fair" -- an explanation that does not adversely
impact specific populations. We formulate a novel evaluation method of "fair
explanations" using not just accuracy and label time, but also psychological
impact of explanations on different user groups across many metrics (mental
discomfort, stereotype activation, and perceived workload). We apply this
method in the context of content moderation of potential hate speech, and its
differential impact on Asian vs. non-Asian proxy moderators, across explanation
approaches (saliency map and counterfactual explanation). We find that saliency
maps generally perform better and show less evidence of disparate impact
(group) and individual unfairness than counterfactual explanations.
Content warning: This paper contains examples of hate speech and racially
discriminatory language. The authors do not support such content. Please
consider your risk of discomfort carefully before continuing reading!
- Abstract(参考訳): AIの説明可能性と公正性の交差点における最近の研究は、公正度測定によって評価されるように、説明が人間+AIタスクのパフォーマンスを改善する方法に焦点を当てている。
本稿では,「公正」な説明を構成するものを特徴付けることを提案する。これは特定の人口に悪影響を及ぼさない説明である。
多くの指標(心的不快感,ステレオタイプアクティベーション,知覚的作業負荷)の異なるユーザグループに対する説明の心理的影響を,精度とラベル時間だけでなく,新たな「フェア説明」の評価手法を定式化した。
本手法を,潜在的なヘイトスピーチのコンテンツモデレーションの文脈に適用し,アジア系と非アジア系の代理モデレーターとの差異を説明的アプローチ(サリエンシーマップと反事実的説明)に応用する。
概して、サリエンシマップは、反ファクト的な説明よりも、異なる影響(グループ)と個人の不公平性の証拠が少ないことが分かりました。
コンテンツ警告:本論文はヘイトスピーチと人種差別言語の一例を含む。
著者はそのような内容をサポートしない。
読書を続ける前に 不快感のリスクを 慎重に検討してください!
関連論文リスト
- Exploring the Effect of Explanation Content and Format on User Comprehension and Trust [11.433655064494896]
がんリスクを評価するための回帰ツールの説明に焦点をあてる。
本稿では,説明内容と形式がユーザ中心の理解と信頼の指標に与える影響について検討する。
論文 参考訳(メタデータ) (2024-08-30T16:36:53Z) - The Impact of Explanations on Fairness in Human-AI Decision-Making: Protected vs Proxy Features [25.752072910748716]
説明は、人間とAIチームがより公平な意思決定のバイアスに対処するのに役立ちます。
モデルフェアネスに対する参加者の認識に及ぼす保護的・代理的特徴の有無の影響について検討した。
説明は直接的ではあるが間接的偏見を検出するのに役立ちます。
論文 参考訳(メタデータ) (2023-10-12T16:00:16Z) - Evaluating GPT-3 Generated Explanations for Hateful Content Moderation [8.63841985804905]
ヘイトフルコンテンツと非ヘイトフルコンテンツの両方に関する説明を生成するために、GPT-3を使用します。
生成した説明を評価するために,2400人の独特な回答者を対象に調査を行った。
以上の結果から, GPTによる説明は言語流布度, 情報伝達度, 説得力, 論理音性において高い品質と評価された。
論文 参考訳(メタデータ) (2023-05-28T10:05:13Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - COFFEE: Counterfactual Fairness for Personalized Text Generation in
Explainable Recommendation [56.520470678876656]
ユーザ記述テキストに固有のバイアスは、言語品質の異なるレベルとユーザの保護された属性を関連付けることができる。
説明生成における測度特異的な対実的公正性を実現するための一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-14T02:29:10Z) - Human Interpretation of Saliency-based Explanation Over Text [65.29015910991261]
テキストデータ上でのサリエンシに基づく説明について検討する。
人はしばしば説明を誤って解釈する。
本稿では,過度知覚と過小認識のモデル推定に基づいて,サリエンシを調整する手法を提案する。
論文 参考訳(メタデータ) (2022-01-27T15:20:32Z) - "Stop Asian Hate!" : Refining Detection of Anti-Asian Hate Speech During
the COVID-19 Pandemic [2.5227595609842206]
新型コロナウイルス(COVID-19)のパンデミックは、アジアでのキセノフォビアと偏見の急増を加速させた。
我々は2つの実験的なアプローチを用いてTwitterのツイートのコーパスを作成して注釈付けし、反アジア人虐待とヘイトスピーチを探索する。
論文 参考訳(メタデータ) (2021-12-04T06:55:19Z) - The Who in XAI: How AI Background Shapes Perceptions of AI Explanations [61.49776160925216]
私たちは、2つの異なるグループ、つまりAIのバックグラウンドを持つ人々といない人たちの、異なるタイプのAI説明に対する理解について、混合手法による研究を行います。
その結果,(1) 両群は異なる理由から不合理な数に対する信頼を示し,(2) それぞれの群は意図した設計以上の異なる説明に価値を見出した。
論文 参考訳(メタデータ) (2021-07-28T17:32:04Z) - Information Consumption and Social Response in a Segregated Environment:
the Case of Gab [74.5095691235917]
この研究は、COVID-19トピックに関するGab内のインタラクションパターンの特徴を提供する。
疑わしい、信頼できるコンテンツに対する社会的反応には、統計的に強い違いはない。
本研究は,協調した不正確な行動の理解と情報操作の早期警戒に関する知見を提供する。
論文 参考訳(メタデータ) (2020-06-03T11:34:25Z) - SCOUT: Self-aware Discriminant Counterfactual Explanations [78.79534272979305]
対物的視覚的説明の問題点を考察する。
新しい差別的な説明の族が紹介される。
結果として生じる反実的な説明は、最適化が自由で、従って以前の方法よりもはるかに高速である。
論文 参考訳(メタデータ) (2020-04-16T17:05:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。