論文の概要: Hatemoji: A Test Suite and Adversarially-Generated Dataset for
Benchmarking and Detecting Emoji-based Hate
- arxiv url: http://arxiv.org/abs/2108.05921v1
- Date: Thu, 12 Aug 2021 18:42:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 13:05:39.732901
- Title: Hatemoji: A Test Suite and Adversarially-Generated Dataset for
Benchmarking and Detecting Emoji-based Hate
- Title(参考訳): hatemoji: 絵文字ベースの憎悪のベンチマークと検出のためのテストスイートと逆生成データセット
- Authors: Hannah Rose Kirk and Bertram Vidgen and Paul R\"ottger and Scott A.
Hale
- Abstract要約: 我々は3,930の短い文からなるテストスイートであるHatemojiCheckを紹介し、絵文字で表現された憎しみのある言語で検出モデルがどのように機能するかを評価することができる。
既存のヘイト検出モデルの弱点に対処するために、革新的なヒューマン・アンド・モデル・イン・ザ・ループアプローチを用いて、HatemojiTrainデータセットを作成します。
これら5,912件の敵対的例に基づいて訓練されたモデルは、テキストのみのヘイトに対する強いパフォーマンスを維持しながら、絵文字ベースのヘイトを検出する能力を大幅に向上させる。
- 参考スコア(独自算出の注目度): 2.385774752937891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting online hate is a complex task, and low-performing detection models
have harmful consequences when used for sensitive applications such as content
moderation. Emoji-based hate is a key emerging challenge for online hate
detection. We present HatemojiCheck, a test suite of 3,930 short-form
statements that allows us to evaluate how detection models perform on hateful
language expressed with emoji. Using the test suite, we expose weaknesses in
existing hate detection models. To address these weaknesses, we create the
HatemojiTrain dataset using an innovative human-and-model-in-the-loop approach.
Models trained on these 5,912 adversarial examples perform substantially better
at detecting emoji-based hate, while retaining strong performance on text-only
hate. Both HatemojiCheck and HatemojiTrain are made publicly available.
- Abstract(参考訳): オンラインヘイトの検出は複雑な作業であり、低パフォーマンス検出モデルはコンテンツモデレーションのようなセンシティブなアプリケーションで使用されると有害な結果をもたらす。
絵文字によるヘイト検出は、オンラインヘイト検出の重要な課題だ。
我々は3,930の短い文からなるテストスイートであるHatemojiCheckを紹介し、絵文字で表現された憎しみのある言語で検出モデルがどのように機能するかを評価することができる。
テストスイートを使用すると、既存のヘイト検出モデルの弱点が明らかになる。
これらの弱点に対処するために、革新的な人間・モデル・イン・ザ・ループアプローチを使用して、HatemojiTrainデータセットを作成します。
これら5,912件の敵対的例に基づいて訓練されたモデルは、テキストのみのヘイトに対する強いパフォーマンスを維持しながら、絵文字ベースのヘイトを検出する能力を大幅に向上させる。
HatemojiCheckとHatemojiTrainの両方が公開されている。
関連論文リスト
- Semantics Preserving Emoji Recommendation with Large Language Models [47.94761630160614]
既存の絵文字レコメンデーションメソッドは、ユーザーが元のテキストで選択した正確な絵文字にマッチする能力に基づいて、主に評価される。
本稿では,ユーザのテキストとのセマンティックな整合性を維持する絵文字を推薦するモデルの能力を計測する,絵文字推薦のための新しいセマンティックス保存フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-16T22:27:46Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Generating Enhanced Negatives for Training Language-Based Object Detectors [86.1914216335631]
我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のある負を自動で構築することを提案する。
具体的には、大言語モデルを用いて、負のテキスト記述を生成するとともに、テキスト間拡散モデルを用いて、対応する負の画像を生成する。
実験により, 生成した負データとの関連性を確認し, 言語ベースの検出器での使用により, 2つの複雑なベンチマークの性能が向上した。
論文 参考訳(メタデータ) (2023-12-29T23:04:00Z) - HARE: Explainable Hate Speech Detection with Step-by-Step Reasoning [29.519687405350304]
本稿では,大規模言語モデル(LLM)の推論能力を利用して,ヘイトスピーチの説明のギャップを埋めるヘイトスピーチ検出フレームワークHAREを紹介する。
SBICとImplicit Hateベンチマークの実験では、モデル生成データを用いた手法がベースラインを一貫して上回ることを示した。
提案手法は,訓練されたモデルの説明品質を高め,未知のデータセットへの一般化を改善する。
論文 参考訳(メタデータ) (2023-11-01T06:09:54Z) - Evaluating ChatGPT's Performance for Multilingual and Emoji-based Hate
Speech Detection [4.809236881780707]
ChatGPTのような大規模言語モデルは、ヘイトスピーチ検出など、いくつかのタスクを実行する上で大きな可能性を最近示した。
本研究では,ChatGPTモデルの長所と短所を,11言語にわたるヘッジ音声の粒度レベルで評価することを目的とした。
論文 参考訳(メタデータ) (2023-05-22T17:36:58Z) - HateCheckHIn: Evaluating Hindi Hate Speech Detection Models [6.52974752091861]
マルチリンガルヘイトは 自動検出の大きな課題です
評価のための機能セットを紹介する。
Hindiをベース言語として考えると、各機能のテストケースを作成します。
論文 参考訳(メタデータ) (2022-04-30T19:09:09Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Emojich -- zero-shot emoji generation using Russian language: a
technical report [52.77024349608834]
エモジッチ(Emojich)は、ロシア語の字幕を条件として絵文字を生成するテキスト・画像ニューラルネットワークである。
我々は,事前訓練された大型モデルruDALL-E Malevich(XL) 1.3Bパラメータの微調整段階における一般化能力を維持することを目的としている。
論文 参考訳(メタデータ) (2021-12-04T23:37:32Z) - Semantic Journeys: Quantifying Change in Emoji Meaning from 2012-2018 [66.28665205489845]
絵文字のセマンティクスが時間とともにどのように変化するかに関する最初の縦断的研究を行い、計算言語学から6年間のtwitterデータに適用した。
絵文字のセマンティックな発達において5つのパターンを識別し、抽象的な絵文字がより少ないほど意味的変化を起こす可能性が高くなることを示す。
絵文字とセマンティクスに関する今後の作業を支援するために、私たちは、絵文字のセマンティックな変化を調べるために誰でも使用できるウェブベースのインターフェイスとともに、データを公開します。
論文 参考訳(メタデータ) (2021-05-03T13:35:10Z) - A `Sourceful' Twist: Emoji Prediction Based on Sentiment, Hashtags and
Application Source [1.6818451361240172]
モデルが関係する感情を理解し、テキストに最適な絵文字を予測するのを助けるためにTwitterの機能を使用することの重要性を紹介します。
データ分析とニューラルネットワークモデルのパフォーマンス評価は、ハッシュタグとアプリケーションソースを特徴として使用することで、異なる情報をエンコードすることができ、絵文字の予測に有効であることを示している。
論文 参考訳(メタデータ) (2021-03-14T03:05:04Z) - HateCheck: Functional Tests for Hate Speech Detection Models [3.4938484663205776]
HateCheckはヘイトスピーチ検出モデルのための最初の機能テストスイートである。
我々は、過去の研究を見直して動機づける29のモデル機能を指定する。
我々は,最先端の変圧器検出モデルと商用モデルの試験を行い,致命的なモデルの弱点を明らかにする。
論文 参考訳(メタデータ) (2020-12-31T13:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。