Fugu-MT 論文翻訳(概要): HARE: Explainable Hate Speech Detection with Step-by-Step Reasoning

論文の概要: HARE: Explainable Hate Speech Detection with Step-by-Step Reasoning

arxiv url: http://arxiv.org/abs/2311.00321v2
Date: Wed, 22 Nov 2023 09:08:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 17:59:46.413553
Title: HARE: Explainable Hate Speech Detection with Step-by-Step Reasoning
Title（参考訳）: HARE:ステップバイステップ推論による説明可能なヘイトスピーチ検出
Authors: Yongjin Yang, Joonkee Kim, Yujin Kim, Namgyu Ho, James Thorne, Se-young Yun
Abstract要約: 本稿では,大規模言語モデル(LLM)の推論能力を利用して,ヘイトスピーチの説明のギャップを埋めるヘイトスピーチ検出フレームワークHAREを紹介する。 SBICとImplicit Hateベンチマークの実験では、モデル生成データを用いた手法がベースラインを一貫して上回ることを示した。提案手法は,訓練されたモデルの説明品質を高め,未知のデータセットへの一般化を改善する。
参考スコア（独自算出の注目度）: 29.519687405350304
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the proliferation of social media, accurate detection of hate speech has become critical to ensure safety online. To combat nuanced forms of hate speech, it is important to identify and thoroughly explain hate speech to help users understand its harmful effects. Recent benchmarks have attempted to tackle this issue by training generative models on free-text annotations of implications in hateful text. However, we find significant reasoning gaps in the existing annotations schemes, which may hinder the supervision of detection models. In this paper, we introduce a hate speech detection framework, HARE, which harnesses the reasoning capabilities of large language models (LLMs) to fill these gaps in explanations of hate speech, thus enabling effective supervision of detection models. Experiments on SBIC and Implicit Hate benchmarks show that our method, using model-generated data, consistently outperforms baselines, using existing free-text human annotations. Analysis demonstrates that our method enhances the explanation quality of trained models and improves generalization to unseen datasets. Our code is available at https://github.com/joonkeekim/hare-hate-speech.git.
Abstract（参考訳）: ソーシャルメディアの普及に伴い、ネット上でのヘイトスピーチの正確な検出が重要になっている。ヘイトスピーチのニュアンスに対処するためには,ヘイトスピーチを識別し,徹底的に説明し,その有害な影響を理解するのに役立つことが重要である。最近のベンチマークでは、ヘイトフルテキストにおける含意のフリーテキストアノテーションで生成モデルをトレーニングすることでこの問題に対処しようとしている。しかし、既存のアノテーションスキームに重大な推論ギャップがあることは、検出モデルの監督を妨げる可能性がある。本稿では,大規模言語モデル(LLM)の推論能力を活用して,ヘイトスピーチの説明におけるこれらのギャップを埋めるヘイトスピーチ検出フレームワークHAREを紹介する。 SBICとImplicit Hateベンチマークの実験では、モデル生成データを用いて、既存のフリーテキストのヒューマンアノテーションを用いて、ベースラインを一貫して上回ります。分析により,本手法は学習モデルの説明品質を高め,未認識データセットへの一般化を改善できることが示される。私たちのコードはhttps://github.com/joonkeekim/hare-hate-speech.gitで利用可能です。

関連論文リスト

Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models [49.1574468325115]
本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
論文参考訳（メタデータ） (2025-05-25T08:37:55Z)
Towards Efficient and Explainable Hate Speech Detection via Model Distillation [2.433983268807517]
大規模言語モデル(LLM)は、ヘイトスピーチの検出と解釈可能性向上に有効であることが証明されている。ヘイトスピーチ分類タスクを支援する説明文を,Chain-of-Thoughtを用いて抽出する。蒸留モデルでは, 大規模モデルと同等の品質を説明できる一方で, 分類性能も上回っていることを実証した。
論文参考訳（メタデータ） (2024-12-18T10:42:53Z)
Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales [15.458557611029518]
ソーシャルメディアプラットフォームは、ユーザーが対人的な議論を行い、意見を述べるための重要な場である。ヘイトスピーチのインスタンスを自動的に識別し、フラグを付ける必要がある。本稿では,現在最先端の大規模言語モデル (LLM) を用いて,入力テキストから有理形の特徴を抽出することを提案する。
論文参考訳（メタデータ） (2024-03-19T03:22:35Z)
GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。 GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文参考訳（メタデータ） (2024-02-23T10:02:01Z)
An Investigation of Large Language Models for Real-World Hate Speech Detection [46.15140831710683]
既存の手法の大きな制限は、ヘイトスピーチ検出がコンテキストの問題である点である。近年,大規模言語モデル (LLM) はいくつかの自然言語処理において最先端の性能を示した。本研究は, ヘイトスピーチの文脈を効果的に把握する上で, 巧妙な推論プロンプトが有効であることを明らかにする。
論文参考訳（メタデータ） (2024-01-07T00:39:33Z)
Hate Speech Detection in Limited Data Contexts using Synthetic Data Generation [1.9506923346234724]
本稿では,限られたデータコンテキストにおいて,オンラインヘイトスピーチ検出のためのデータ不足の問題に対処するデータ拡張手法を提案する。対象言語におけるヘイトスピーチデータの新しい例を合成する3つの方法を提案する。以上の結果から, 合成データを用いたモデルでは, 対象領域で利用可能なサンプルに対してのみ学習したモデルが比較可能であり, 性能が良好である場合も見いだされた。
論文参考訳（メタデータ） (2023-10-04T15:10:06Z)
CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文参考訳（メタデータ） (2023-03-02T17:30:43Z)
Leveraging World Knowledge in Implicit Hate Speech Detection [5.5536024561229205]
テキスト中のエンティティの言及に関する現実的な知識は、モデルがヘイトスピーチをよりよく検出するのに役立ちます。また,実世界の知識がヘイトスピーチ検出に価値を与えない事例についても論じる。
論文参考訳（メタデータ） (2022-12-28T21:23:55Z)
Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文参考訳（メタデータ） (2022-02-19T03:48:20Z)
Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文参考訳（メタデータ） (2022-01-15T20:48:14Z)
Characterizing the adversarial vulnerability of speech self-supervised learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文参考訳（メタデータ） (2021-11-08T08:44:04Z)
Latent Hatred: A Benchmark for Understanding Implicit Hate Speech [22.420275418616242]
この研究は、暗黙のヘイトスピーチの理論的に正当化された分類法と、各メッセージにきめ細かいラベルを付けたベンチマークコーパスを導入している。本稿では、同時代のベースラインを用いて、暗黙のヘイトスピーチを検出し、説明するためにデータセットを体系的に分析する。
論文参考訳（メタデータ） (2021-09-11T16:52:56Z)
Towards Hate Speech Detection at Large via Deep Generative Modeling [4.080068044420974]
ヘイトスピーチ検出はソーシャルメディアプラットフォームにおいて重要な問題である。生成言語モデルにより生成された100万件の現実的憎悪と非憎悪のシーケンスのデータセットを提示する。 5つの公開ヘイトスピーチデータセットで一貫した、重要なパフォーマンス改善を実証する。
論文参考訳（メタデータ） (2020-05-13T15:25:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。