論文の概要: Specializing General-purpose LLM Embeddings for Implicit Hate Speech Detection across Datasets
- arxiv url: http://arxiv.org/abs/2508.20750v1
- Date: Thu, 28 Aug 2025 13:08:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.403153
- Title: Specializing General-purpose LLM Embeddings for Implicit Hate Speech Detection across Datasets
- Title(参考訳): データセット間の不適切なヘイト音声検出のための汎用LLM埋め込みの特化
- Authors: Vassiliy Cheremetiev, Quang Long Ho Ngo, Chau Ying Kot, Alina Elena Baia, Andrea Cavallaro,
- Abstract要約: インプシット・ヘイトスピーチ(IHS)は、偏見や憎悪を微妙な手がかり、皮肉、コード化された用語で伝える間接言語である。
この課題に対処するために、タスク固有のパイプラインは、外部の知識や、コンテキスト、感情、感情データなどの追加情報と補完することができる。
- 参考スコア(独自算出の注目度): 15.149796711104353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Implicit hate speech (IHS) is indirect language that conveys prejudice or hatred through subtle cues, sarcasm or coded terminology. IHS is challenging to detect as it does not include explicit derogatory or inflammatory words. To address this challenge, task-specific pipelines can be complemented with external knowledge or additional information such as context, emotions and sentiment data. In this paper, we show that, by solely fine-tuning recent general-purpose embedding models based on large language models (LLMs), such as Stella, Jasper, NV-Embed and E5, we achieve state-of-the-art performance. Experiments on multiple IHS datasets show up to 1.10 percentage points improvements for in-dataset, and up to 20.35 percentage points improvements in cross-dataset evaluation, in terms of F1-macro score.
- Abstract(参考訳): インプシット・ヘイトスピーチ(IHS)は、偏見や憎悪を微妙な手がかり、皮肉、コード化された用語で伝える間接言語である。
IHSは明示的な軽蔑語や炎症語を含まないため、検出が困難である。
この課題に対処するために、タスク固有のパイプラインは、外部の知識や、コンテキスト、感情、感情データなどの追加情報と補完することができる。
本稿では,Stella,Jasper,NV-Embed,E5といった大規模言語モデル(LLM)に基づく最近の汎用埋め込みモデルのみを微調整することによって,最先端の性能を実現することを示す。
複数のIMSデータセットの実験では、インデータセットの最大1.10パーセントの改善、F1マクロスコアの最大20.35パーセントの改善が示されている。
関連論文リスト
- Towards Generalizable Generic Harmful Speech Datasets for Implicit Hate Speech Detection [7.762212551172391]
過激なヘイトスピーチはソーシャルメディアプラットフォームにとって重要な課題となっている。
本稿では,暗黙のヘイトスピーチの検出に対処し,多様なデータセット間の一般化性を高める手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T17:23:08Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - A Target-Aware Analysis of Data Augmentation for Hate Speech Detection [3.858155067958448]
ヘイトスピーチは、ソーシャルネットワークの普及によって引き起こされる主要な脅威の1つだ。
本稿では,既存のデータを生成言語モデルで拡張し,ターゲットの不均衡を低減する可能性を検討する。
起源、宗教、障害などのヘイトカテゴリーでは、トレーニングのための強化データを用いたヘイトスピーチ分類は、拡張ベースラインが存在しない場合、10%以上のF1が向上する。
論文 参考訳(メタデータ) (2024-10-10T15:46:27Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Leveraging Cross-Utterance Context For ASR Decoding [6.033324057680156]
クロス発話情報は、第2パスの再検査で有益であることが示されている。
ビームサーチによる音響モデルのクロス発話復号のための長文変換器LMの組込みについて検討する。
論文 参考訳(メタデータ) (2023-06-29T12:48:25Z) - Revisiting Hate Speech Benchmarks: From Data Curation to System
Deployment [26.504056750529124]
GOTHateは、Twitterからヘイトスピーチを検出するために約51万の投稿をクラウドソースした大規模クラウドソースデータセットである。
最近の10のベースラインでベンチマークを行い、内因性信号の追加がヘイトスピーチ検出タスクをどのように強化するかを検討する。
我々のHEN-mBERTは多言語混合実験モデルであり、潜在内因性信号で言語的部分空間を豊かにする。
論文 参考訳(メタデータ) (2023-06-01T19:36:52Z) - Selective In-Context Data Augmentation for Intent Detection using
Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。
提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。
そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文 参考訳(メタデータ) (2023-02-10T07:37:49Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。