論文の概要: ToxVis: Enabling Interpretability of Implicit vs. Explicit Toxicity
Detection Models with Interactive Visualization
- arxiv url: http://arxiv.org/abs/2303.09402v1
- Date: Wed, 1 Mar 2023 17:24:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-19 11:30:11.153509
- Title: ToxVis: Enabling Interpretability of Implicit vs. Explicit Toxicity
Detection Models with Interactive Visualization
- Title(参考訳): ToxVis:インタラクティブな可視化によるインプシットと明示的毒性検出モデルの解釈可能性の実現
- Authors: Uma Gunturi, Xiaohan Ding, Eugenia H. Rho
- Abstract要約: ToxVisはヘイトスピーチを3つのカテゴリーに分類するインタラクティブツールだ。
ToxVisは、コンテンツモデレーター、ソーシャルメディアプラットフォーム、そしてオンラインでヘイトスピーチの拡散と戦う研究者のためのリソースとして機能する。
- 参考スコア(独自算出の注目度): 7.0525662747824365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of hate speech on online platforms has led to an urgent need for
effective content moderation. However, the subjective and multi-faceted nature
of hateful online content, including implicit hate speech, poses significant
challenges to human moderators and content moderation systems. To address this
issue, we developed ToxVis, a visually interactive and explainable tool for
classifying hate speech into three categories: implicit, explicit, and
non-hateful. We fine-tuned two transformer-based models using RoBERTa, XLNET,
and GPT-3 and used deep learning interpretation techniques to provide
explanations for the classification results. ToxVis enables users to input
potentially hateful text and receive a classification result along with a
visual explanation of which words contributed most to the decision. By making
the classification process explainable, ToxVis provides a valuable tool for
understanding the nuances of hateful content and supporting more effective
content moderation. Our research contributes to the growing body of work aimed
at mitigating the harms caused by online hate speech and demonstrates the
potential for combining state-of-the-art natural language processing models
with interpretable deep learning techniques to address this critical issue.
Finally, ToxVis can serve as a resource for content moderators, social media
platforms, and researchers working to combat the spread of hate speech online.
- Abstract(参考訳): オンラインプラットフォームでのヘイトスピーチの台頭は、効果的なコンテンツモデレーションを緊急に必要としている。
しかし、暗黙のヘイトスピーチを含むヘイトフルなオンラインコンテンツの主観的で多面的な性質は、人間のモデレーターやコンテンツモデレーションシステムに重大な課題をもたらす。
この問題に対処するため、私たちは、ヘイトスピーチを暗黙的、明示的、非憎しみの3つのカテゴリに分類する視覚的にインタラクティブで説明可能なツールであるToxVisを開発した。
我々は,RoBERTa,XLNET,GPT-3 を用いて2つのトランスフォーマーモデルを微調整し,深層学習解釈技術を用いて分類結果の説明を行った。
ToxVisは、ユーザーが潜在的に憎しみのあるテキストを入力し、決定に最も寄与した単語の視覚的説明とともに分類結果を受け取ることを可能にする。
分類プロセスを説明可能にすることで、toxvisは憎悪コンテンツのニュアンスを理解し、より効果的なコンテンツモデレーションをサポートする貴重なツールを提供する。
我々の研究は、オンラインヘイトスピーチによる害を軽減し、最先端の自然言語処理モデルと解釈可能なディープラーニング技術を組み合わせてこの問題に対処する可能性を示している。
最後に、ToxVisはコンテンツモデレーター、ソーシャルメディアプラットフォーム、そしてオンラインでヘイトスピーチの拡散と戦う研究者のためのリソースとして機能する。
関連論文リスト
- Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales [15.458557611029518]
ソーシャルメディアプラットフォームは、ユーザーが対人的な議論を行い、意見を述べるための重要な場である。
ヘイトスピーチのインスタンスを自動的に識別し、フラグを付ける必要がある。
本稿では,現在最先端の大規模言語モデル (LLM) を用いて,入力テキストから有理形の特徴を抽出することを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:22:35Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Assessing the impact of contextual information in hate speech detection [0.48369513656026514]
我々は,Twitter上のメディアからのニュース投稿に対するユーザの反応に基づいた,文脈的ヘイトスピーチ検出のための新しいコーパスを提供する。
このコーパスはリオプラテンセ方言のスペイン語で収集され、新型コロナウイルスのパンデミックに関連するヘイトスピーチに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-02T09:04:47Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Interpretable Multi-Modal Hate Speech Detection [32.36781061930129]
特定の憎悪表現が作られる社会文化的文脈とともに、テキストの意味を効果的に捉えることができるディープニューラルマルチモーダルモデルを提案する。
我々のモデルは、既存のヘイトスピーチ分類アプローチを上回ることができる。
論文 参考訳(メタデータ) (2021-03-02T10:12:26Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Investigating Deep Learning Approaches for Hate Speech Detection in
Social Media [20.974715256618754]
表現の自由の誤用は、様々なサイバー犯罪や反社会的活動の増加につながった。
ヘイトスピーチ(Hate speech)は、社会的ファブリックの完全性に脅威をもたらす可能性があるため、他の問題と同様に真剣に対処する必要がある。
本稿では,ソーシャルメディアにおける様々なヘイトスピーチの検出に様々な埋め込みを応用したディープラーニングアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-29T17:28:46Z) - Transfer Learning for Hate Speech Detection in Social Media [14.759208309842178]
本稿では、2つの独立したデータセットを協調的に活用するために転送学習手法を用いる。
我々は、構築されたヘイトスピーチ表現の解釈可能な2次元可視化ツールを構築します。
この共同表現は,限られた監督範囲の場合にのみ予測性能が向上することを示す。
論文 参考訳(メタデータ) (2019-06-10T08:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。