論文の概要: Muted: Multilingual Targeted Offensive Speech Identification and
Visualization
- arxiv url: http://arxiv.org/abs/2312.11344v1
- Date: Mon, 18 Dec 2023 16:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 19:18:43.610899
- Title: Muted: Multilingual Targeted Offensive Speech Identification and
Visualization
- Title(参考訳): Muted:多言語目標音声の識別と可視化
- Authors: Christoph Tillmann, Aashka Trivedi, Sara Rosenthal, Santosh Borse,
Rong Zhang, Avirup Sil, Bishwaranjan Bhattacharjee
- Abstract要約: Muted は多言語 HAP の内容を特定するシステムであり,その強度を示すために熱マップを用いて攻撃的引数とそのターゲットを表示する。
本稿では,攻撃的スパンとその対象を既存のデータセットで識別する上でのモデルの性能と,ドイツ語のテキストに新たなアノテーションを提示する。
- 参考スコア(独自算出の注目度): 15.656203119337436
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Offensive language such as hate, abuse, and profanity (HAP) occurs in various
content on the web. While previous work has mostly dealt with sentence level
annotations, there have been a few recent attempts to identify offensive spans
as well. We build upon this work and introduce Muted, a system to identify
multilingual HAP content by displaying offensive arguments and their targets
using heat maps to indicate their intensity. Muted can leverage any
transformer-based HAP-classification model and its attention mechanism
out-of-the-box to identify toxic spans, without further fine-tuning. In
addition, we use the spaCy library to identify the specific targets and
arguments for the words predicted by the attention heatmaps. We present the
model's performance on identifying offensive spans and their targets in
existing datasets and present new annotations on German text. Finally, we
demonstrate our proposed visualization tool on multilingual inputs.
- Abstract(参考訳): 憎しみ、虐待、預言(hap)といった攻撃的言語は、ウェブ上の様々なコンテンツに現れる。
これまでは主に文レベルのアノテーションを扱っていたが、最近は攻撃的なスパンを識別する試みもいくつか行われている。
この研究に基づいて,攻撃的議論とその対象を熱マップを用いて表示し,その強度を示すことで多言語HAP内容を特定するシステムであるMutedを紹介する。
MutedはトランスフォーマーベースのHAP分類モデルとその注意機構を利用して有害なスパンを識別する。
さらに,注目ヒートマップによって予測される単語の特定のターゲットと引数を特定するために,paCyライブラリを使用する。
本稿では,既存のデータセットにおける攻撃的スパンとそのターゲットを識別するモデルの性能と,ドイツ語テキストに対する新しいアノテーションを提案する。
最後に,多言語入力の可視化ツールを提案する。
関連論文リスト
- ToxiCloakCN: Evaluating Robustness of Offensive Language Detection in Chinese with Cloaking Perturbations [6.360597788845826]
本研究では,現在最先端の大規模言語モデル (LLM) の体系的摂動データにおける攻撃的内容の同定における限界について検討する。
我々の研究は、検出メカニズムを回避するために使用される進化的戦術に対抗するために、攻撃言語検出におけるより高度な技術が緊急に必要であることを強調している。
論文 参考訳(メタデータ) (2024-06-18T02:44:56Z) - Target Span Detection for Implicit Harmful Content [18.84674403712032]
我々は、より微妙なヘイトスピーチを認識し、デジタルプラットフォーム上で有害なコンテンツを検出するために不可欠な、ヘイトスピーチの暗黙のターゲットを特定することに注力する。
我々は、SBIC、DynaHate、IHCの3つの顕著な暗黙のヘイトスピーチデータセットでターゲットを収集し、注釈付けする。
実験の結果,Implicit-Target-Spanはターゲットスパン検出法に挑戦的なテストベッドを提供することがわかった。
論文 参考訳(メタデータ) (2024-03-28T21:15:15Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - MUDES: Multilingual Detection of Offensive Spans [3.284443134471233]
MUDESはテキスト中の攻撃的スパンを検出するシステムである。
事前トレーニングされたモデル、開発者向けのPython API、ユーザフレンドリーなWebベースインターフェースを備えている。
論文 参考訳(メタデータ) (2021-02-18T23:19:00Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。