論文の概要: Challenger at MultiPRIDE: Is It Hate Speech or Reclaimed?
- arxiv url: http://arxiv.org/abs/2606.01298v1
- Date: Sun, 31 May 2026 15:38:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.557719
- Title: Challenger at MultiPRIDE: Is It Hate Speech or Reclaimed?
- Title(参考訳): MultiPRIDEのチャレンジャー: スピーチは嫌いか、復活か?
- Authors: Hadi Bayrami Asl Tekanlou, Mahdi Bakhtiyarzadeh, Jafar Razmara,
- Abstract要約: 本稿では,ヘイトスピーチと再生言語を区別するための,シンプルかつ解釈可能なアプローチを提案する。
本手法は, 密集したセマンティックテキストの埋め込みを生成し, ラベルノイズフィルタリングの段階を組み込む。
提案手法は,マクロ平均値を含む精度,リコール,F1スコアを用いて評価する。
- 参考スコア(独自算出の注目度): 0.6882042556551609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The spread of hate speech has become increasingly harmful in modern digital environments, particularly on social networking platforms. While recent advances have shown promising results in automatic hate speech detection, a key challenge remains: distinguishing genuine hate speech from reclaimed language. Accurate labeling is difficult due to the nuanced and context-dependent nature of reclaimed expressions. In this paper, we present a simple and interpretable approach for distinguishing hate speech from reclaimed language, developed for the MultiPride Shared Task. Our method generates dense semantic text embeddings and incorporates a label-noise filtering stage using Cleanlab with logistic regression, followed by a Multi-layer Perceptron (MLP) neural network for final classification. The system is designed to operate under limited computational resources while maintaining strong performance. We evaluate our approach using precision, recall, and F1-score, including macro-averaged metrics. Experimental results demonstrate robust performance despite extreme class imbalance in the dataset. Overall, the findings highlight the potential for further improvements through larger embedding models and more advanced preprocessing techniques while preserving interpretability.
- Abstract(参考訳): ヘイトスピーチの普及は、現代のデジタル環境、特にソーシャルネットワークプラットフォームにおいてますます有害になっている。
最近の進歩は、自動ヘイトスピーチ検出の有望な結果を示しているが、重要な課題は、真のヘイトスピーチと再生言語を区別することである。
再現された表現のニュアンスと文脈に依存した性質のため、正確なラベル付けは困難である。
本稿では,マルチプライド共有タスクのために開発された,ヘイトスピーチと再生言語を区別するための,シンプルかつ解釈可能なアプローチを提案する。
提案手法は,階層型セマンティックテキスト埋め込みを生成し,ロジスティック回帰を伴うクリーンラブを用いたラベルノイズフィルタリングステージと,最終分類のための多層パーセプトロン(MLP)ニューラルネットワークを併用する。
このシステムは、強力な性能を維持しながら、限られた計算資源の下で動作するように設計されている。
提案手法は,マクロ平均値を含む精度,リコール,F1スコアを用いて評価する。
実験結果から,データセットの過度なクラス不均衡にもかかわらず,頑健な性能を示した。
全体としては、より大きな埋め込みモデルとより高度なプリプロセッシング技術により、解釈可能性を維持しながらさらなる改善の可能性を浮き彫りにしている。
関連論文リスト
- Leveraging the Potential of Prompt Engineering for Hate Speech Detection in Low-Resource Languages [2.8811725782388686]
本稿では,低リソースベンガル言語に着目した大規模言語モデル (LLM) の迅速なエンジニアリングにより,その限界を克服する方法について検討する。
我々は、ゼロショットプロンプト、拒絶抑制、分類器のフラット化、マルチショットプロンプト、ロールプロンプト、そして最後に、低リソース言語でヘイトスピーチを効果的に検出する革新的なメタファーの6つのプロンプトについて検討する。
低リソースのベンガル語におけるメタファーの有効性を証明するため、別の低リソースのヒンディー語と2つの高リソースの言語(英語とドイツ語)で評価した。
論文 参考訳(メタデータ) (2025-06-30T14:59:25Z) - Hierarchical Sentiment Analysis Framework for Hate Speech Detection: Implementing Binary and Multiclass Classification Strategy [0.0]
本稿では,英語におけるヘイトスピーチを検出するために,共有感情表現と統合された新しいマルチタスクモデルを提案する。
我々は、感情分析とトランスフォーマーに基づく訓練モデルを利用することで、複数のデータセット間でのヘイトスピーチの検出を大幅に改善できると結論付けた。
論文 参考訳(メタデータ) (2024-11-03T04:11:33Z) - Intent-conditioned and Non-toxic Counterspeech Generation using Multi-Task Instruction Tuning with RLAIF [14.2594830589926]
オンラインヘイトスピーチに対する反応として定義されているCounterspeechは、非センセーショナルソリューションとしてますます利用されている。
ヘイトフルステートメントにおける社会的バイアスの背景にある実践的意味をモデル化し,反音声生成を促進させる新しいフレームワークであるCoARLを紹介した。
CoARLの最初の2つのフェーズは、連続的なマルチインストラクションチューニング、インテント、反応、攻撃的ステートメントの害を理解するためのモデルを教えること、そしてインテント条件付き逆音声を生成するためのタスク固有の低ランクアダプタ重みを学習することである。
論文 参考訳(メタデータ) (2024-03-15T08:03:49Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Combating high variance in Data-Scarce Implicit Hate Speech
Classification [0.0]
我々は,最先端の性能を実現する新しいRoBERTaモデルを開発した。
本稿では,様々な最適化手法と正規化手法を探求し,最先端性能を実現するRoBERTaベースの新しいモデルを開発する。
論文 参考訳(メタデータ) (2022-08-29T13:45:21Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - A study of text representations in Hate Speech Detection [0.0]
ヘイトフル言語に対するEUと米国の現行の法律は、ヘイトスピーチ検出タスクとパイプラインに必要な自動ツールを導いている。
本研究では,Hate音声の自動検出タスクにおいて,複数の分類アルゴリズムと組み合わせた多種多様なテキスト表現手法の性能について検討する。
論文 参考訳(メタデータ) (2021-02-08T20:39:17Z) - Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文 参考訳(メタデータ) (2020-09-22T02:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。