論文の概要: Multilingual HateCheck: Functional Tests for Multilingual Hate Speech
Detection Models
- arxiv url: http://arxiv.org/abs/2206.09917v1
- Date: Mon, 20 Jun 2022 17:54:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 10:09:16.105681
- Title: Multilingual HateCheck: Functional Tests for Multilingual Hate Speech
Detection Models
- Title(参考訳): 多言語HateCheck:多言語Hate音声検出モデルのための機能テスト
- Authors: Paul R\"ottger, Haitham Seelawi, Debora Nozza, Zeerak Talat, Bertie
Vidgen
- Abstract要約: HateCheck(MHC)は,多言語ヘイトスピーチ検出モデルのための機能テストスイートである。
MHCは、他のヘイトスピーチデータセットよりも多くの言語である10言語にわたる34の機能をカバーしている。
我々は,ハイパフォーマンスな多言語ヘイトスピーチ検出モデルの訓練とテストを行い,モノリンガルおよびクロスランガルアプリケーションにおいて重要なモデルの弱点を明らかにする。
- 参考スコア(独自算出の注目度): 14.128029444990895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hate speech detection models are typically evaluated on held-out test sets.
However, this risks painting an incomplete and potentially misleading picture
of model performance because of increasingly well-documented systematic gaps
and biases in hate speech datasets. To enable more targeted diagnostic
insights, recent research has thus introduced functional tests for hate speech
detection models. However, these tests currently only exist for
English-language content, which means that they cannot support the development
of more effective models in other languages spoken by billions across the
world. To help address this issue, we introduce Multilingual HateCheck (MHC), a
suite of functional tests for multilingual hate speech detection models. MHC
covers 34 functionalities across ten languages, which is more languages than
any other hate speech dataset. To illustrate MHC's utility, we train and test a
high-performing multilingual hate speech detection model, and reveal critical
model weaknesses for monolingual and cross-lingual applications.
- Abstract(参考訳): ヘイトスピーチ検出モデルは通常、ホールドアウトテストセットで評価される。
しかし、これはヘイトスピーチデータセットの体系的なギャップとバイアスが増大しているため、モデルパフォーマンスの不完全で、潜在的に誤解を招く恐れがある。
より客観的な診断洞察を可能にするために、近年の研究はヘイトスピーチ検出モデルの機能テストを導入した。
しかし、これらのテストは現在、英語コンテンツにのみ存在するため、世界中の何十億もの人々が話している他の言語において、より効果的なモデルの開発を支援することはできない。
この問題に対処するために,多言語ヘイトスピーチ検出モデルのための機能テストスイートであるMultilingual HateCheck(MHC)を紹介する。
MHCは、他のヘイトスピーチデータセットよりも多くの言語である10言語にわたる34の機能をカバーしている。
MHCの有用性を説明するために,ハイパフォーマンスな多言語ヘイトスピーチ検出モデルの訓練とテストを行い,モノリンガルおよびクロスランガルアプリケーションにおいて重要なモデルの弱点を明らかにする。
関連論文リスト
- Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Evaluating ChatGPT's Performance for Multilingual and Emoji-based Hate
Speech Detection [4.809236881780707]
ChatGPTのような大規模言語モデルは、ヘイトスピーチ検出など、いくつかのタスクを実行する上で大きな可能性を最近示した。
本研究では,ChatGPTモデルの長所と短所を,11言語にわたるヘッジ音声の粒度レベルで評価することを目的とした。
論文 参考訳(メタデータ) (2023-05-22T17:36:58Z) - Model-Agnostic Meta-Learning for Multilingual Hate Speech Detection [23.97444551607624]
ソーシャルメディアにおけるヘイトスピーチは増加傾向にあり、そのような有害なコンテンツを検出することが大きな牽引力となっている。
HateMAMLはモデルに依存しないメタ学習ベースのフレームワークで、低リソース言語でのヘイトスピーチ検出を効果的に行う。
大規模な実験は、8つの異なる低リソース言語にわたる5つのデータセットで実施されている。
論文 参考訳(メタデータ) (2023-03-04T22:28:29Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Lifting the Curse of Multilinguality by Pre-training Modular
Transformers [72.46919537293068]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。
言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。
我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文 参考訳(メタデータ) (2022-05-12T17:59:56Z) - HateCheckHIn: Evaluating Hindi Hate Speech Detection Models [6.52974752091861]
マルチリンガルヘイトは 自動検出の大きな課題です
評価のための機能セットを紹介する。
Hindiをベース言語として考えると、各機能のテストケースを作成します。
論文 参考訳(メタデータ) (2022-04-30T19:09:09Z) - Highly Generalizable Models for Multilingual Hate Speech Detection [0.0]
ヘイトスピーチ検出は過去10年で重要な研究課題となっている。
我々は11言語からなるデータセットをコンパイルし、組み合わせたデータとバイナリラベル(ヘイトスピーチかヘイトスピーチでないか)を解析することで、異なる解決を行う。
多言語-トレイン型モノリンガルテスト,モノリンガルトレイン型モノリンガルテスト,言語-家族型モノリンガルテストのシナリオである。
論文 参考訳(メタデータ) (2022-01-27T03:09:38Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。