論文の概要: On the Role of Speech Data in Reducing Toxicity Detection Bias
- arxiv url: http://arxiv.org/abs/2411.08135v1
- Date: Tue, 12 Nov 2024 19:26:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:12:06.549811
- Title: On the Role of Speech Data in Reducing Toxicity Detection Bias
- Title(参考訳): 毒性検出バイアスの低減における音声データの役割について
- Authors: Samuel J. Bell, Mariano Coria Meglioli, Megan Richards, Eduardo Sánchez, Christophe Ropers, Skyler Wang, Adina Williams, Levent Sagun, Marta R. Costa-jussà,
- Abstract要約: マルチリンガルな MuTox データセットに対して,高品質なグループアノテーションセットを作成する。
次に、これらのアノテーションを利用して、音声およびテキストに基づく毒性分類器を体系的に比較する。
以上の結果から,推測中の音声データへのアクセスは,グループ言及に対する偏見の低減に役立つことが示唆された。
- 参考スコア(独自算出の注目度): 22.44133159647888
- License:
- Abstract: Text toxicity detection systems exhibit significant biases, producing disproportionate rates of false positives on samples mentioning demographic groups. But what about toxicity detection in speech? To investigate the extent to which text-based biases are mitigated by speech-based systems, we produce a set of high-quality group annotations for the multilingual MuTox dataset, and then leverage these annotations to systematically compare speech- and text-based toxicity classifiers. Our findings indicate that access to speech data during inference supports reduced bias against group mentions, particularly for ambiguous and disagreement-inducing samples. Our results also suggest that improving classifiers, rather than transcription pipelines, is more helpful for reducing group bias. We publicly release our annotations and provide recommendations for future toxicity dataset construction.
- Abstract(参考訳): テキスト毒性検出システムは有意なバイアスを示し、人口統計群に言及するサンプルに対して偽陽性率の不均衡を生じさせる。
しかし、音声の毒性検出はどうだろう?
テキストベースのバイアスが音声ベースシステムによって緩和される範囲を調べるため、多言語MuToxデータセットのための高品質なグループアノテーションセットを作成し、これらのアノテーションを利用して音声およびテキストベースの毒性分類器を体系的に比較する。
以上の結果から,推測中の音声データへのアクセスは,グループ言及に対する偏見の低減,特に曖昧で不明瞭なサンプルに対して有効であることが示唆された。
また, この結果から, 転写パイプラインよりも分類器の改良がグループバイアスの低減に有効であることが示唆された。
アノテーションを公開し、将来的な毒性データセット構築のためのレコメンデーションを提供します。
関連論文リスト
- Detecting Unintended Social Bias in Toxic Language Datasets [32.724030288421474]
本稿では,既存のKaggleコンペティションのデータセットであるJigsaw Unintended Bias in Toxicity Classificationから算出した新しいデータセットであるToxicBiasを紹介する。
データセットには、5つの異なるバイアスカテゴリ、viz.、性、人種/民族性、宗教、政治的、LGBTQに注釈付けされたインスタンスが含まれている。
得られたデータセットを用いてトランスフォーマーベースモデルをトレーニングし、バイアス識別、ターゲット生成、バイアス含意に関するベースライン性能を報告する。
論文 参考訳(メタデータ) (2022-10-21T06:50:12Z) - ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and
Implicit Hate Speech Detection [33.715318646717385]
ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。
このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。
有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
論文 参考訳(メタデータ) (2022-03-17T17:57:56Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。
また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文 参考訳(メタデータ) (2021-11-19T13:57:26Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation [50.55448707570669]
本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
論文 参考訳(メタデータ) (2021-04-18T04:09:48Z) - Cross-geographic Bias Detection in Toxicity Modeling [9.128264779870538]
より広い地理的文脈における語彙バイアスを頑健に検出する弱教師付き手法を提案する。
提案手法は, 誤りの正当群を同定し, 続いて, その地理的文脈において, 攻撃的・無害な言語に対する人間の判断を反映していることを示す。
論文 参考訳(メタデータ) (2021-04-14T17:32:05Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。