論文の概要: Explain the Flag: Contextualizing Hate Speech Beyond Censorship
- arxiv url: http://arxiv.org/abs/2604.14970v1
- Date: Thu, 16 Apr 2026 13:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.90646
- Title: Explain the Flag: Contextualizing Hate Speech Beyond Censorship
- Title(参考訳): 旗の解説:検閲を超えたヘイトスピーチの文脈化
- Authors: Jason Liartis, Eirini Kaldeli, Lambrini Gyftokosta, Eleftherios Chelioudakis, Orfeas Menis Mastromichalakis,
- Abstract要約: 本稿では,Large Language Models(LLMs)と新たに作成された3つの語彙を組み合わせたハイブリッドアプローチを提案する。
本システムでは,2つの相補的なパイプラインを通して,個人特性と直接グループ目標コンテンツに関連付けられた弁解表現を抽出する。
アウトプットは、なぜコンテンツがフラグ付けされているのかを明確にする根拠付きの説明に融合される。
- 参考スコア(独自算出の注目度): 2.796818629124347
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Hate, derogatory, and offensive speech remains a persistent challenge in online platforms and public discourse. While automated detection systems are widely used, most focus on censorship or removal, raising concerns for transparency and freedom of expression, and limiting opportunities to explain why content is harmful. To address these issues, explanatory approaches have emerged as a promising solution, aiming to make hate speech detection more transparent, accountable, and informative. In this paper, we present a hybrid approach that combines Large Language Models (LLMs) with three newly created and curated vocabularies to detect and explain hate speech in English, French, and Greek. Our system captures both inherently derogatory expressions tied to identity characteristics and direct group-targeted content through two complementary pipelines: one that detects and disambiguates problematic terms using the curated vocabularies, and one that leverages LLMs as context-aware evaluators of group-targeting content. The outputs are fused into grounded explanations that clarify why content is flagged. Human evaluation shows that our hybrid approach is accurate, with high-quality explanations, outperforming LLM-only baselines.
- Abstract(参考訳): 憎しみ、軽蔑、侮辱的なスピーチは、オンラインプラットフォームと公衆の議論において永続的な課題である。
自動検出システムは広く使われているが、多くは検閲や削除、透明性と表現の自由への懸念の高まり、コンテンツが有害な理由を説明する機会の制限に焦点を当てている。
これらの問題に対処するため、ヘイトスピーチの検出をより透明で、説明責任があり、情報的になることを目的として、説明的アプローチが有望な解決策として浮上した。
本稿では,Large Language Models (LLMs) と新たに作成された3つの語彙を併用して,英語,フランス語,ギリシア語のヘイトスピーチを検出し,説明するハイブリッドアプローチを提案する。
本システムでは,2つの相補的パイプラインを通して,同一性の特徴と直接的グループ目標コンテンツに関連付けられた表現を抽出する。
アウトプットは、なぜコンテンツがフラグ付けされているのかを明確にする根拠付きの説明に融合される。
人間の評価は、我々のハイブリッドアプローチが正確であることを示し、高品質な説明により、LLMのみのベースラインを上回ります。
関連論文リスト
- More Than Sum of Its Parts: Deciphering Intent Shifts in Multimodal Hate Speech Detection [49.07221734365168]
ソーシャルメディア上でのヘイトスピーチは、サイバースペースの確保には不可欠だが、自動検出システムに大きく依存している。
我々は、モダリティが相互作用する意味的意図変化を特徴付け、良心的憎悪から暗黙的憎悪を構築するか、意味的逆転を通じて毒性を中和する。
本稿では,これらの複雑な手がかりを効果的に解読するために,裁判所エージェントによる非対称推論(Asymmetric Reasoning)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-22T15:46:23Z) - VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs [54.75016325571445]
音声大言語モデル (LLM) は, 音声の感情認識において, 生成インタフェースを介する大きな可能性を示す。
クローズドセットからオープンテキスト生成へのシフトは、ゼロショット性を導入し、プロンプトに非常に敏感な評価を与える。
本稿では,VoxEmoについて紹介する。VoxEmoは音声LLMのための15言語に35の感情コーパスを含む総合的なSERベンチマークである。
論文 参考訳(メタデータ) (2026-03-09T21:10:34Z) - Synthetic Voices, Real Threats: Evaluating Large Text-to-Speech Models in Generating Harmful Audio [63.18443674004945]
この研究は、TSシステムを利用して有害なコンテンツを含む音声を生成する、コンテンツ中心の脅威を探究する。
HARMGENは、これらの課題に対処する2つのファミリーにまとめられた5つの攻撃群である。
論文 参考訳(メタデータ) (2025-11-14T03:00:04Z) - Dual Information Speech Language Models for Emotional Conversations [48.094826104102204]
音声を入力として使用する言語モデル(SLM)が,将来性のあるソリューションとして浮上している。
我々は、絡み合った情報と不適切なトレーニング戦略を重要な課題として挙げる。
提案手法はパラ言語情報や言語情報を解き、SLMが構造化表現を通して音声を解釈することを可能にする。
論文 参考訳(メタデータ) (2025-08-11T15:33:44Z) - Hierarchical Sentiment Analysis Framework for Hate Speech Detection: Implementing Binary and Multiclass Classification Strategy [0.0]
本稿では,英語におけるヘイトスピーチを検出するために,共有感情表現と統合された新しいマルチタスクモデルを提案する。
我々は、感情分析とトランスフォーマーに基づく訓練モデルを利用することで、複数のデータセット間でのヘイトスピーチの検出を大幅に改善できると結論付けた。
論文 参考訳(メタデータ) (2024-11-03T04:11:33Z) - Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales [15.458557611029518]
ソーシャルメディアプラットフォームは、ユーザーが対人的な議論を行い、意見を述べるための重要な場である。
ヘイトスピーチのインスタンスを自動的に識別し、フラグを付ける必要がある。
本稿では,現在最先端の大規模言語モデル (LLM) を用いて,入力テキストから有理形の特徴を抽出することを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:22:35Z) - Hate Speech Detection via Dual Contrastive Learning [25.878271501274245]
本稿では,ヘイトスピーチ検出のための新しい双方向コントラスト学習フレームワークを提案する。
本フレームワークは,自己教師型学習と教師型学習の損失を協調的に最適化し,スパンレベルの情報を取得する。
公開可能な2つの英語データセットの実験を行い、実験結果から、提案モデルが最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-07-10T13:23:36Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Latent Hatred: A Benchmark for Understanding Implicit Hate Speech [22.420275418616242]
この研究は、暗黙のヘイトスピーチの理論的に正当化された分類法と、各メッセージにきめ細かいラベルを付けたベンチマークコーパスを導入している。
本稿では、同時代のベースラインを用いて、暗黙のヘイトスピーチを検出し、説明するためにデータセットを体系的に分析する。
論文 参考訳(メタデータ) (2021-09-11T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。