論文の概要: Towards Legally Enforceable Hate Speech Detection for Public Forums
- arxiv url: http://arxiv.org/abs/2305.13677v1
- Date: Tue, 23 May 2023 04:34:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 19:04:12.532483
- Title: Towards Legally Enforceable Hate Speech Detection for Public Forums
- Title(参考訳): 公共フォーラムにおける法的強制型ヘイトスピーチ検出に向けて
- Authors: Chu Fei Luo, Rohan Bhambhoria, Xiaodan Zhu, Samuel Dahan
- Abstract要約: 本稿では,法的定義を中心にヘイトスピーチを強制的に検出するための新しいタスクを提案する。
法律の専門家による11の可能な定義に違反したデータセットを拡大する。
次に、いくつかの大きな言語モデルに関する結果を報告する。
- 参考スコア(独自算出の注目度): 16.660004925391842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hate speech is a serious issue on public forums, and proper enforcement of
hate speech laws is key for protecting groups of people against harmful and
discriminatory language. However, determining what constitutes hate speech is a
complex task that is highly open to subjective interpretations. Existing works
do not align their systems with enforceable definitions of hate speech, which
can make their outputs inconsistent with the goals of regulators. Our work
introduces a new task for enforceable hate speech detection centred around
legal definitions, and a dataset annotated on violations of eleven possible
definitions by legal experts. Given the challenge of identifying clear, legally
enforceable instances of hate speech, we augment the dataset with
expert-generated samples and an automatically mined challenge set. We
experiment with grounding the model decision in these definitions using
zero-shot and few-shot prompting. We then report results on several large
language models (LLMs). With this task definition, automatic hate speech
detection can be more closely aligned to enforceable laws, and hence assist in
more rigorous enforcement of legal protections against harmful speech in public
forums.
- Abstract(参考訳): ヘイトスピーチは公の場で深刻な問題であり、ヘイトスピーチ法の適切な施行は、有害で差別的な言語から人々のグループを保護する鍵となる。
しかし、ヘイトスピーチを構成するものを決定することは、主観的解釈に非常にオープンな複雑なタスクである。
既存の作品では、彼らのシステムはヘイトスピーチの強制可能な定義とは一致せず、その結果は規制当局の目標と矛盾する可能性がある。
我々の研究は、法的定義を中心とした強制的ヘイトスピーチ検出のための新しいタスクと、法の専門家による11の可能な定義違反に関するデータセットを導入している。
ヘイトスピーチの明確で法的に強制可能なインスタンスを特定することの難しさを踏まえ、専門家が作成したサンプルと自動マイニングされたチャレンジセットでデータセットを拡張する。
ゼロショットと少数ショットのプロンプトを用いてモデル決定をこれらの定義に基礎付ける実験を行った。
次に,いくつかの大規模言語モデル (LLM) の結果を報告する。
このタスク定義により、自動ヘイトスピーチ検出は強制可能な法律により緊密に適合し、公共フォーラムにおける有害なスピーチに対するより厳格な法的保護の実施を支援することができる。
関連論文リスト
- A Hate Speech Moderated Chat Application: Use Case for GDPR and DSA Compliance [0.0]
本研究は、コンテンツモデレーションプロセスに法的・倫理的推論を実装する新しい応用法を提案する。
GPT-3.5やSolid Pods,ルール言語Provaといった技術を使って,オンラインコミュニケーションの基本となる2つのユースケースを提示し,実装する。
この研究は、ヘイトスピーチの法的および倫理的定義の異なる範囲で推論するための新しいアプローチを提案し、ヘイトスピーチに適合するカウンターを計画する。
論文 参考訳(メタデータ) (2024-10-10T08:28:38Z) - Demarked: A Strategy for Enhanced Abusive Speech Moderation through Counterspeech, Detoxification, and Message Management [71.99446449877038]
本研究では, 重度尺度, (ii) ターゲットの存在, (iii) 文脈尺度, (iv) 法的尺度の4つの側面を基礎として, より包括的手法であるDemarcation scoreing abusive speechを提案する。
本研究は,ネット上での虐待的スピーチを効果的に解決するための今後の戦略を明らかにすることを目的としている。
論文 参考訳(メタデータ) (2024-06-27T21:45:33Z) - An Investigation of Large Language Models for Real-World Hate Speech
Detection [46.15140831710683]
既存の手法の大きな制限は、ヘイトスピーチ検出がコンテキストの問題である点である。
近年,大規模言語モデル (LLM) はいくつかの自然言語処理において最先端の性能を示した。
本研究は, ヘイトスピーチの文脈を効果的に把握する上で, 巧妙な推論プロンプトが有効であることを明らかにする。
論文 参考訳(メタデータ) (2024-01-07T00:39:33Z) - Hate Speech Detection via Dual Contrastive Learning [25.878271501274245]
本稿では,ヘイトスピーチ検出のための新しい双方向コントラスト学習フレームワークを提案する。
本フレームワークは,自己教師型学習と教師型学習の損失を協調的に最適化し,スパンレベルの情報を取得する。
公開可能な2つの英語データセットの実験を行い、実験結果から、提案モデルが最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-07-10T13:23:36Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Leveraging World Knowledge in Implicit Hate Speech Detection [5.5536024561229205]
テキスト中のエンティティの言及に関する現実的な知識は、モデルがヘイトスピーチをよりよく検出するのに役立ちます。
また,実世界の知識がヘイトスピーチ検出に価値を与えない事例についても論じる。
論文 参考訳(メタデータ) (2022-12-28T21:23:55Z) - Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable
Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。
不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文 参考訳(メタデータ) (2022-03-04T15:59:06Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Latent Hatred: A Benchmark for Understanding Implicit Hate Speech [22.420275418616242]
この研究は、暗黙のヘイトスピーチの理論的に正当化された分類法と、各メッセージにきめ細かいラベルを付けたベンチマークコーパスを導入している。
本稿では、同時代のベースラインを用いて、暗黙のヘイトスピーチを検出し、説明するためにデータセットを体系的に分析する。
論文 参考訳(メタデータ) (2021-09-11T16:52:56Z) - Unsupervised Domain Adaptation for Hate Speech Detection Using a Data
Augmentation Approach [6.497816402045099]
ヘイトスピーチ検出のためのラベル付きデータを拡張するための教師なし領域適応手法を提案する。
精度/リコール曲線の領域を最大42%改善し,278%改善した。
論文 参考訳(メタデータ) (2021-07-27T15:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。