論文の概要: HatePRISM: Policies, Platforms, and Research Integration. Advancing NLP for Hate Speech Proactive Mitigation
- arxiv url: http://arxiv.org/abs/2507.04350v1
- Date: Sun, 06 Jul 2025 11:25:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.133147
- Title: HatePRISM: Policies, Platforms, and Research Integration. Advancing NLP for Hate Speech Proactive Mitigation
- Title(参考訳): HatePRISM: Hate Speech Proactive MitigationのためのNLPの改善
- Authors: Naquee Rizwan, Seid Muhie Yimam, Daryna Dementieva, Florian Skupin, Tim Fischer, Daniil Moskovskiy, Aarushi Ajay Borkar, Robert Geislinger, Punyajoy Saha, Sarthak Roy, Martin Semmann, Alexander Panchenko, Chris Biemann, Animesh Mukherjee,
- Abstract要約: 我々は3つの観点からヘイトスピーチ規制と戦略を総合的に検討する。
以上の結果から,ヘイトスピーチ定義や地域ごとのモデレーション慣行に重大な矛盾があることが判明した。
自動ヘイトスピーチモデレーションのための統合フレームワークのさらなる検討のためのアイデアと研究の方向性を提案する。
- 参考スコア(独自算出の注目度): 67.69631485036665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite regulations imposed by nations and social media platforms, e.g. (Government of India, 2021; European Parliament and Council of the European Union, 2022), inter alia, hateful content persists as a significant challenge. Existing approaches primarily rely on reactive measures such as blocking or suspending offensive messages, with emerging strategies focusing on proactive measurements like detoxification and counterspeech. In our work, which we call HatePRISM, we conduct a comprehensive examination of hate speech regulations and strategies from three perspectives: country regulations, social platform policies, and NLP research datasets. Our findings reveal significant inconsistencies in hate speech definitions and moderation practices across jurisdictions and platforms, alongside a lack of alignment with research efforts. Based on these insights, we suggest ideas and research direction for further exploration of a unified framework for automated hate speech moderation incorporating diverse strategies.
- Abstract(参考訳): インド政府(2021年、欧州議会と欧州連合理事会(2022年))は、国家やソーシャルメディアプラットフォームが課した規制にも拘わらず、ヘイトフルコンテンツは重要な課題として存続している。
既存のアプローチは、主に攻撃的なメッセージのブロックや停止のような反応性のある手段に依存しており、デトキシ化や反音声といった積極的な測定に重点を置いている。
HatePRISMと呼ばれる私たちの研究では、国家規制、社会プラットフォームポリシー、NLP研究データセットという3つの視点からヘイトスピーチ規制と戦略を包括的に検討しています。
以上の結果から, ヘイトスピーチ定義の矛盾や, 地域やプラットフォーム間でのモデレーションの実践, 研究活動との整合性の欠如が明らかとなった。
これらの知見に基づいて,多様な戦略を取り入れた自動ヘイトスピーチモデレーションのための統合された枠組みのさらなる探索のためのアイデアと研究の方向性を提案する。
関連論文リスト
- On the Use of Proxies in Political Ad Targeting [49.61009579554272]
我々は、主要な政治広告主がプロキシ属性をターゲットとして緩和を回避したことを示す。
本研究は政治広告の規制に関する議論に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-10-18T17:15:13Z) - Demarked: A Strategy for Enhanced Abusive Speech Moderation through Counterspeech, Detoxification, and Message Management [71.99446449877038]
本研究では, 重度尺度, (ii) ターゲットの存在, (iii) 文脈尺度, (iv) 法的尺度の4つの側面を基礎として, より包括的手法であるDemarcation scoreing abusive speechを提案する。
本研究は,ネット上での虐待的スピーチを効果的に解決するための今後の戦略を明らかにすることを目的としている。
論文 参考訳(メタデータ) (2024-06-27T21:45:33Z) - An Investigation of Large Language Models for Real-World Hate Speech
Detection [46.15140831710683]
既存の手法の大きな制限は、ヘイトスピーチ検出がコンテキストの問題である点である。
近年,大規模言語モデル (LLM) はいくつかの自然言語処理において最先端の性能を示した。
本研究は, ヘイトスピーチの文脈を効果的に把握する上で, 巧妙な推論プロンプトが有効であることを明らかにする。
論文 参考訳(メタデータ) (2024-01-07T00:39:33Z) - Towards Legally Enforceable Hate Speech Detection for Public Forums [29.225955299645978]
本研究では,ヘイトスピーチ検出のための新たな視点と課題を紹介する。
法の専門家による11の可能な定義に違反したデータセットを使用します。
ヘイトスピーチの明確で法的に強制可能なインスタンスを特定することの難しさを踏まえ、専門家が作成したサンプルと自動マイニングされたチャレンジセットでデータセットを拡張する。
論文 参考訳(メタデータ) (2023-05-23T04:34:41Z) - Having your Privacy Cake and Eating it Too: Platform-supported Auditing
of Social Media Algorithms for Public Interest [70.02478301291264]
ソーシャルメディアプラットフォームは、情報や機会へのアクセスをキュレートするので、公衆の言論を形成する上で重要な役割を果たす。
これまでの研究では、これらのアルゴリズムが偏見や差別的な結果をもたらすことを示すためにブラックボックス法が用いられてきた。
本稿では,提案法の目標を満たすプラットフォーム支援型監査手法を提案する。
論文 参考訳(メタデータ) (2022-07-18T17:32:35Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Hate versus Politics: Detection of Hate against Policy makers in Italian
tweets [0.6289422225292998]
本稿では,イタリアにおけるTwitterの政策立案者に対するヘイトスピーチの分類問題について論じる。
1264ツイートを収集,注釈し,アノテータ間の不一致事例を調査し,ドメイン内およびドメイン間ヘイトスピーチ分類を行った。
我々は、ROC AUC 0.83の性能を達成し、最も予測可能な属性を分析し、また、反政治家と反移民ドメインで異なる言語特徴を見出した。
論文 参考訳(メタデータ) (2021-07-12T12:24:45Z) - Interpretable Multi-Modal Hate Speech Detection [32.36781061930129]
特定の憎悪表現が作られる社会文化的文脈とともに、テキストの意味を効果的に捉えることができるディープニューラルマルチモーダルモデルを提案する。
我々のモデルは、既存のヘイトスピーチ分類アプローチを上回ることができる。
論文 参考訳(メタデータ) (2021-03-02T10:12:26Z) - A Legal Approach to Hate Speech: Operationalizing the EU's Legal
Framework against the Expression of Hatred as an NLP Task [2.248133901806859]
本稿では,刑法に従属するか否かの判断を運用することで,音声検出を嫌う「法的アプローチ」を提案する。
法的な判断を一連の単純なサブ決定に分解することで、素人でさえ一貫して注釈を付けることができることを示す。
論文 参考訳(メタデータ) (2020-04-07T14:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。