Fugu-MT 論文翻訳(概要): Multilingual HateCheck: Functional Tests for Multilingual Hate Speech Detection Models

論文の概要: Multilingual HateCheck: Functional Tests for Multilingual Hate Speech Detection Models

arxiv url: http://arxiv.org/abs/2206.09917v1
Date: Mon, 20 Jun 2022 17:54:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-23 10:09:16.105681
Title: Multilingual HateCheck: Functional Tests for Multilingual Hate Speech Detection Models
Title（参考訳）: 多言語HateCheck:多言語Hate音声検出モデルのための機能テスト
Authors: Paul R\"ottger, Haitham Seelawi, Debora Nozza, Zeerak Talat, Bertie Vidgen
Abstract要約: HateCheck(MHC)は,多言語ヘイトスピーチ検出モデルのための機能テストスイートである。 MHCは、他のヘイトスピーチデータセットよりも多くの言語である10言語にわたる34の機能をカバーしている。我々は,ハイパフォーマンスな多言語ヘイトスピーチ検出モデルの訓練とテストを行い,モノリンガルおよびクロスランガルアプリケーションにおいて重要なモデルの弱点を明らかにする。
参考スコア（独自算出の注目度）: 14.128029444990895
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hate speech detection models are typically evaluated on held-out test sets. However, this risks painting an incomplete and potentially misleading picture of model performance because of increasingly well-documented systematic gaps and biases in hate speech datasets. To enable more targeted diagnostic insights, recent research has thus introduced functional tests for hate speech detection models. However, these tests currently only exist for English-language content, which means that they cannot support the development of more effective models in other languages spoken by billions across the world. To help address this issue, we introduce Multilingual HateCheck (MHC), a suite of functional tests for multilingual hate speech detection models. MHC covers 34 functionalities across ten languages, which is more languages than any other hate speech dataset. To illustrate MHC's utility, we train and test a high-performing multilingual hate speech detection model, and reveal critical model weaknesses for monolingual and cross-lingual applications.
Abstract（参考訳）: ヘイトスピーチ検出モデルは通常、ホールドアウトテストセットで評価される。しかし、これはヘイトスピーチデータセットの体系的なギャップとバイアスが増大しているため、モデルパフォーマンスの不完全で、潜在的に誤解を招く恐れがある。より客観的な診断洞察を可能にするために、近年の研究はヘイトスピーチ検出モデルの機能テストを導入した。しかし、これらのテストは現在、英語コンテンツにのみ存在するため、世界中の何十億もの人々が話している他の言語において、より効果的なモデルの開発を支援することはできない。この問題に対処するために,多言語ヘイトスピーチ検出モデルのための機能テストスイートであるMultilingual HateCheck(MHC)を紹介する。 MHCは、他のヘイトスピーチデータセットよりも多くの言語である10言語にわたる34の機能をカバーしている。 MHCの有用性を説明するために,ハイパフォーマンスな多言語ヘイトスピーチ検出モデルの訓練とテストを行い,モノリンガルおよびクロスランガルアプリケーションにおいて重要なモデルの弱点を明らかにする。

関連論文リスト

Can Prompting LLMs Unlock Hate Speech Detection across Languages? A Zero-shot and Few-shot Study [59.30098850050971]
この研究は、8つの非英語言語にわたるLLMのプロンプトに基づく検出を評価する。実世界の評価セットのほとんどにおいて、ゼロショットと少数ショットが微調整エンコーダモデルに遅れを生じさせる一方で、ヘイトスピーチ検出のための関数的テストのより優れた一般化を実現していることを示す。
論文参考訳（メタデータ） (2025-05-09T16:00:01Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。 GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文参考訳（メタデータ） (2024-02-23T10:02:01Z)
Evaluating ChatGPT's Performance for Multilingual and Emoji-based Hate Speech Detection [4.809236881780707]
ChatGPTのような大規模言語モデルは、ヘイトスピーチ検出など、いくつかのタスクを実行する上で大きな可能性を最近示した。本研究では,ChatGPTモデルの長所と短所を,11言語にわたるヘッジ音声の粒度レベルで評価することを目的とした。
論文参考訳（メタデータ） (2023-05-22T17:36:58Z)
Model-Agnostic Meta-Learning for Multilingual Hate Speech Detection [23.97444551607624]
ソーシャルメディアにおけるヘイトスピーチは増加傾向にあり、そのような有害なコンテンツを検出することが大きな牽引力となっている。 HateMAMLはモデルに依存しないメタ学習ベースのフレームワークで、低リソース言語でのヘイトスピーチ検出を効果的に行う。大規模な実験は、8つの異なる低リソース言語にわたる5つのデータセットで実施されている。
論文参考訳（メタデータ） (2023-03-04T22:28:29Z)
M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文参考訳（メタデータ） (2022-11-02T14:54:45Z)
Lifting the Curse of Multilinguality by Pre-training Modular Transformers [72.46919537293068]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文参考訳（メタデータ） (2022-05-12T17:59:56Z)
HateCheckHIn: Evaluating Hindi Hate Speech Detection Models [6.52974752091861]
マルチリンガルヘイトは自動検出の大きな課題です評価のための機能セットを紹介する。 Hindiをベース言語として考えると、各機能のテストケースを作成します。
論文参考訳（メタデータ） (2022-04-30T19:09:09Z)
Highly Generalizable Models for Multilingual Hate Speech Detection [0.0]
ヘイトスピーチ検出は過去10年で重要な研究課題となっている。我々は11言語からなるデータセットをコンパイルし、組み合わせたデータとバイナリラベル(ヘイトスピーチかヘイトスピーチでないか)を解析することで、異なる解決を行う。多言語-トレイン型モノリンガルテスト,モノリンガルトレイン型モノリンガルテスト,言語-家族型モノリンガルテストのシナリオである。
論文参考訳（メタデータ） (2022-01-27T03:09:38Z)
Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文参考訳（メタデータ） (2022-01-15T20:48:14Z)
Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3～4%の性能評価を行った。
論文参考訳（メタデータ） (2020-04-09T01:03:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。