Fugu-MT 論文翻訳(概要): Cracking the Code: Enhancing Implicit Hate Speech Detection through Coding Classification

論文の概要: Cracking the Code: Enhancing Implicit Hate Speech Detection through Coding Classification

arxiv url: http://arxiv.org/abs/2506.04693v1
Date: Thu, 05 Jun 2025 07:15:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.576036
Title: Cracking the Code: Enhancing Implicit Hate Speech Detection through Coding Classification
Title（参考訳）: コードのひび割れ:符号化分類による暗黙のヘイト音声検出の強化
Authors: Lu Wei, Liangzhi Li, Tong Xiang, Xiao Liu, Noa Garcia,
Abstract要約: 我々は,Im-HS検出のための新しい分類法を導入し,コードタイプと呼ばれる6つの符号化戦略を定義した。実験により、コードタイプを使用することで、中国語と英語の両方のデータセットにおける即時HS検出が向上することが示された。
参考スコア（独自算出の注目度）: 14.71617865049465
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The internet has become a hotspot for hate speech (HS), threatening societal harmony and individual well-being. While automatic detection methods perform well in identifying explicit hate speech (ex-HS), they struggle with more subtle forms, such as implicit hate speech (im-HS). We tackle this problem by introducing a new taxonomy for im-HS detection, defining six encoding strategies named codetypes. We present two methods for integrating codetypes into im-HS detection: 1) prompting large language models (LLMs) directly to classify sentences based on generated responses, and 2) using LLMs as encoders with codetypes embedded during the encoding process. Experiments show that the use of codetypes improves im-HS detection in both Chinese and English datasets, validating the effectiveness of our approach across different languages.
Abstract（参考訳）: インターネットはヘイトスピーチ(HS)のホットスポットとなり、社会的調和と個人の幸福を脅かしている。自動検出法は、明示的ヘイトスピーチ(ex-HS)を特定するのにうまく機能するが、暗黙的ヘイトスピーチ(im-HS)のようなより微妙な形式に苦しむ。我々は、Im-HS検出のための新しい分類を導入し、コードタイプと呼ばれる6つの符号化戦略を定義し、この問題に対処する。我々は,Im-HS検出にコードタイプを統合する2つの方法を提案する。 1)大きな言語モデル (LLM) を直接分類し、生成した応答に基づいて文を分類し、 2) LLM をエンコーダとして使用し,エンコーダ中にコード型を埋め込んだ。実験により、中国語と英語の両方のデータセットにおけるIm-HS検出におけるコード型の使用が向上し、異なる言語でのアプローチの有効性が検証された。

関連論文リスト

Synthetic Voices, Real Threats: Evaluating Large Text-to-Speech Models in Generating Harmful Audio [63.18443674004945]
この研究は、TSシステムを利用して有害なコンテンツを含む音声を生成する、コンテンツ中心の脅威を探究する。 HARMGENは、これらの課題に対処する2つのファミリーにまとめられた5つの攻撃群である。
論文参考訳（メタデータ） (2025-11-14T03:00:04Z)
From BERT to Qwen: Hate Detection across architectures [0.0]
自己回帰LLMは、より深いコンテキスト認識を約束します。本研究は,古典エンコーダと次世代LLMの両方を,ハト・音声検出のためのオンラインインタラクションのコーパスとして評価した。
論文参考訳（メタデータ） (2025-07-14T16:46:30Z)
OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities [54.152681077418805]
現在の検出アプローチは誤りがあり、特にモデル機能のミスマッチした一般化を利用する攻撃の影響を受けやすい。 OMNIGUARDは,言語やモダリティにまたがる有害なプロンプトを検出する手法である。提案手法は,多言語環境において最強のベースラインよりも11.57%,有害なプロンプト分類精度を向上する。
論文参考訳（メタデータ） (2025-05-29T05:25:27Z)
Can Prompting LLMs Unlock Hate Speech Detection across Languages? A Zero-shot and Few-shot Study [59.30098850050971]
この研究は、8つの非英語言語にわたるLLMのプロンプトに基づく検出を評価する。実世界の評価セットのほとんどにおいて、ゼロショットと少数ショットが微調整エンコーダモデルに遅れを生じさせる一方で、ヘイトスピーチ検出のための関数的テストのより優れた一般化を実現していることを示す。
論文参考訳（メタデータ） (2025-05-09T16:00:01Z)
Adapting Whisper for Code-Switching through Encoding Refining and Language-Aware Decoding [27.499426765845705]
コードスイッチング自動音声認識(ASR)はアクセント、聴覚的類似性、シームレスな言語スイッチによる言語混乱による課題に直面している。我々は,大規模多言語事前学習音声認識モデルであるWhisperを,エンコーダ部とデコーダ部の両方からCSに適応させる。
論文参考訳（メタデータ） (2024-12-21T07:06:44Z)
T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。 PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文参考訳（メタデータ） (2024-06-11T10:06:53Z)
HARE: Explainable Hate Speech Detection with Step-by-Step Reasoning [29.519687405350304]
本稿では,大規模言語モデル(LLM)の推論能力を利用して,ヘイトスピーチの説明のギャップを埋めるヘイトスピーチ検出フレームワークHAREを紹介する。 SBICとImplicit Hateベンチマークの実験では、モデル生成データを用いた手法がベースラインを一貫して上回ることを示した。提案手法は,訓練されたモデルの説明品質を高め,未知のデータセットへの一般化を改善する。
論文参考訳（メタデータ） (2023-11-01T06:09:54Z)
LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文参考訳（メタデータ） (2022-06-05T04:03:12Z)
Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文参考訳（メタデータ） (2022-01-15T20:48:14Z)
Non-autoregressive Mandarin-English Code-switching Speech Recognition with Pinyin Mask-CTC and Word Embedding Regularization [61.749126838659315]
マンダリン・イングリッシュ・コード・スイッチング (CS) は東アジアや東南アジアでよく使われている。近年の非自己回帰(NAR)ASRモデルは、自己回帰(AR)モデルにおける左から右へのビームデコードの必要性を排除している。エンコーダの出力目標をpinyinに変更してエンコーダトレーニングを高速化し,文脈情報学習のためのpinyin-to-mandarinデコーダを提案する。
論文参考訳（メタデータ） (2021-04-06T03:01:09Z)
A study of text representations in Hate Speech Detection [0.0]
ヘイトフル言語に対するEUと米国の現行の法律は、ヘイトスピーチ検出タスクとパイプラインに必要な自動ツールを導いている。本研究では,Hate音声の自動検出タスクにおいて,複数の分類アルゴリズムと組み合わせた多種多様なテキスト表現手法の性能について検討する。
論文参考訳（メタデータ） (2021-02-08T20:39:17Z)
Learning not to Discriminate: Task Agnostic Learning for Improving Monolingual and Code-switched Speech Recognition [12.354292498112347]
本稿では、ドメイン逆学習を用いてタスクモデルを訓練することにより、これまでの作業よりもさらに改善する。提案手法は,単語誤り率(WER)を3つの言語対に対して単言語およびコード切替テストセットで削減する。
論文参考訳（メタデータ） (2020-06-09T13:45:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。