論文の概要: Testing Hateful Speeches against Policies
- arxiv url: http://arxiv.org/abs/2307.12418v1
- Date: Sun, 23 Jul 2023 20:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 16:09:25.495658
- Title: Testing Hateful Speeches against Policies
- Title(参考訳): ポリシーに対するヘイトなスピーチをテストする
- Authors: Jiangrui Zheng, Xueqing Liu, Girish Budhrani, Wei Yang, Ravishka
Rathnasuriya
- Abstract要約: 本稿では、AIとディープニューラルネットワークベースのシステムがルールベースの要件/政策に対してどのように振る舞うかを検討する。
特に、AIベースのコンテンツモデレーションソフトウェアをコンテンツモデレーションポリシーに対してチェックするケーススタディに焦点を当てる。
- 参考スコア(独自算出の注目度): 5.368078580153659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the recent years, many software systems have adopted AI techniques,
especially deep learning techniques. Due to their black-box nature, AI-based
systems brought challenges to traceability, because AI system behaviors are
based on models and data, whereas the requirements or policies are rules in the
form of natural or programming language. To the best of our knowledge, there is
a limited amount of studies on how AI and deep neural network-based systems
behave against rule-based requirements/policies. This experience paper examines
deep neural network behaviors against rule-based requirements described in
natural language policies. In particular, we focus on a case study to check
AI-based content moderation software against content moderation policies.
First, using crowdsourcing, we collect natural language test cases which match
each moderation policy, we name this dataset HateModerate; second, using the
test cases in HateModerate, we test the failure rates of state-of-the-art hate
speech detection software, and we find that these models have high failure
rates for certain policies; finally, since manual labeling is costly, we
further proposed an automated approach to augument HateModerate by finetuning
OpenAI's large language models to automatically match new examples to policies.
The dataset and code of this work can be found on our anonymous website:
\url{https://sites.google.com/view/content-moderation-project}.
- Abstract(参考訳): 近年、多くのソフトウェアシステムがAI技術、特にディープラーニング技術を採用しています。
そのブラックボックスの性質から、aiベースのシステムはトレーサビリティに課題をもたらした。aiシステムの振る舞いはモデルとデータに基づいているのに対して、要件やポリシーは自然言語やプログラミング言語の形式で規則になっているからだ。
私たちの知る限りでは、AIとディープニューラルネットワークベースのシステムは、ルールベースの要件/政策に対してどのように振る舞うか、という研究は限られています。
本稿では、自然言語ポリシーに記述された規則に基づく要求に対する深いニューラルネットワークの挙動について検討する。
特に、AIベースのコンテンツモデレーションソフトウェアをコンテンツモデレーションポリシーに対してチェックするケーススタディに焦点を当てる。
First, using crowdsourcing, we collect natural language test cases which match each moderation policy, we name this dataset HateModerate; second, using the test cases in HateModerate, we test the failure rates of state-of-the-art hate speech detection software, and we find that these models have high failure rates for certain policies; finally, since manual labeling is costly, we further proposed an automated approach to augument HateModerate by finetuning OpenAI's large language models to automatically match new examples to policies.
この作業のデータセットとコードは、匿名のwebサイトにある: \url{https://sites.google.com/view/content-moderation-project}。
関連論文リスト
- A Hate Speech Moderated Chat Application: Use Case for GDPR and DSA Compliance [0.0]
本研究は、コンテンツモデレーションプロセスに法的・倫理的推論を実装する新しい応用法を提案する。
GPT-3.5やSolid Pods,ルール言語Provaといった技術を使って,オンラインコミュニケーションの基本となる2つのユースケースを提示し,実装する。
この研究は、ヘイトスピーチの法的および倫理的定義の異なる範囲で推論するための新しいアプローチを提案し、ヘイトスピーチに適合するカウンターを計画する。
論文 参考訳(メタデータ) (2024-10-10T08:28:38Z) - Exploiting Hatred by Targets for Hate Speech Detection on Vietnamese Social Media Texts [0.0]
まず、ベトナムのソーシャルメディアテキストを対象としたヘイトスピーチ検出データセットViTHSDを紹介する。
データセットには10Kコメントが含まれており、各コメントには、クリーン、攻撃、ヘイトという3つのレベルがある特定のターゲットにラベルが付けられている。
データセットから得られたアノテーション間の合意は、コーエンのカッパ指数によって0.45であり、中程度のレベルとして示される。
論文 参考訳(メタデータ) (2024-04-30T04:16:55Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Revisiting Hate Speech Benchmarks: From Data Curation to System
Deployment [26.504056750529124]
GOTHateは、Twitterからヘイトスピーチを検出するために約51万の投稿をクラウドソースした大規模クラウドソースデータセットである。
最近の10のベースラインでベンチマークを行い、内因性信号の追加がヘイトスピーチ検出タスクをどのように強化するかを検討する。
我々のHEN-mBERTは多言語混合実験モデルであり、潜在内因性信号で言語的部分空間を豊かにする。
論文 参考訳(メタデータ) (2023-06-01T19:36:52Z) - Analyzing Norm Violations in Live-Stream Chat [49.120561596550395]
本研究は,ライブストリーミングプラットフォーム上での会話における規範違反を検出することを目的とした,最初のNLP研究である。
ライブストリームチャットにおける標準違反カテゴリを定義し、Twitchから4,583のコメントを注釈付けします。
以上の結果から,適切なコンテキスト情報がモデレーション性能を35%向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-18T05:58:27Z) - A User-Driven Framework for Regulating and Auditing Social Media [94.70018274127231]
アルゴリズムフィルタリングは、フレキシブルでユーザ主導のベースラインに対して規制されるべきである。
プラットフォームフィルタのフィードには,それぞれのベースラインフィードと「類似した」情報コンテンツが含まれる必要がある。
プラットフォームがこの要件を尊重するかどうかをチェックする監査手順を提案する。
論文 参考訳(メタデータ) (2023-04-20T17:53:34Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Unsupervised Domain Adaptation for Hate Speech Detection Using a Data
Augmentation Approach [6.497816402045099]
ヘイトスピーチ検出のためのラベル付きデータを拡張するための教師なし領域適応手法を提案する。
精度/リコール曲線の領域を最大42%改善し,278%改善した。
論文 参考訳(メタデータ) (2021-07-27T15:01:22Z) - An Information Retrieval Approach to Building Datasets for Hate Speech
Detection [3.587367153279349]
「一般的な慣行は、既知の憎しみの言葉を含むツイートを注釈するだけである。」
第二の課題は、ヘイトスピーチの定義が高度に変動し、主観的である傾向があることである。
我々の重要な洞察は、ヘイトスピーチの希少性と主観性が情報検索(IR)の関連性に類似していることである。
論文 参考訳(メタデータ) (2021-06-17T19:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。