論文の概要: ToXCL: A Unified Framework for Toxic Speech Detection and Explanation
- arxiv url: http://arxiv.org/abs/2403.16685v2
- Date: Mon, 20 May 2024 04:06:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 22:50:58.280590
- Title: ToXCL: A Unified Framework for Toxic Speech Detection and Explanation
- Title(参考訳): ToXCL: Toxic Speech Detection and Explanation のための統一フレームワーク
- Authors: Nhat M. Hoang, Xuan Long Do, Duc Anh Do, Duc Anh Vu, Luu Anh Tuan,
- Abstract要約: ToXCLは暗黙の有毒音声の検出と説明のための統合されたフレームワークである。
ToXCLは、新しい最先端の有効性を実現し、ベースラインを大幅に上回る。
- 参考スコア(独自算出の注目度): 3.803993344850168
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The proliferation of online toxic speech is a pertinent problem posing threats to demographic groups. While explicit toxic speech contains offensive lexical signals, implicit one consists of coded or indirect language. Therefore, it is crucial for models not only to detect implicit toxic speech but also to explain its toxicity. This draws a unique need for unified frameworks that can effectively detect and explain implicit toxic speech. Prior works mainly formulated the task of toxic speech detection and explanation as a text generation problem. Nonetheless, models trained using this strategy can be prone to suffer from the consequent error propagation problem. Moreover, our experiments reveal that the detection results of such models are much lower than those that focus only on the detection task. To bridge these gaps, we introduce ToXCL, a unified framework for the detection and explanation of implicit toxic speech. Our model consists of three modules: a (i) Target Group Generator to generate the targeted demographic group(s) of a given post; an (ii) Encoder-Decoder Model in which the encoder focuses on detecting implicit toxic speech and is boosted by a (iii) Teacher Classifier via knowledge distillation, and the decoder generates the necessary explanation. ToXCL achieves new state-of-the-art effectiveness, and outperforms baselines significantly.
- Abstract(参考訳): オンラインの有害な言論の拡散は、人口集団に脅威をもたらす関連する問題である。
明示的な有害な音声は攻撃的な語彙信号を含むが、暗黙のものはコード化された言語または間接的な言語から構成される。
したがって、モデルが暗黙の有毒な音声を検出するだけでなく、その有毒さを説明することも重要である。
このことは、暗黙の有毒なスピーチを効果的に検出し、説明できる統一されたフレームワークのユニークな必要性を引き出す。
先行研究は、主にテキスト生成問題として有毒な音声の検出と説明のタスクを定式化した。
それでも、この戦略を用いて訓練されたモデルは、その後のエラー伝搬問題に悩まされがちである。
さらに,本実験では,検出タスクのみに着目したモデルよりも,そのようなモデルの検出結果がはるかに低いことが明らかとなった。
これらのギャップを埋めるために、暗黙の有毒な音声の検出と説明のための統一的なフレームワークToXCLを導入する。
私たちのモデルは3つのモジュールで構成されています。
一 所定のポストの目標人口群を生成するための目標集団発生装置
二 暗黙の有毒音声の検出に焦点を当てたエンコーダデコーダモデル
3 知識蒸留による教師分類器及び復号器は、必要な説明を生成する。
ToXCLは、新しい最先端の有効性を実現し、ベースラインを大幅に上回る。
関連論文リスト
- DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Fine-Grained Detoxification via Instance-Level Prefixes for Large
Language Models [26.474136481185724]
インスタンスレベルのプレフィックス(FGDILP)によるきめ細かいデトックス化は、有害なテキストを余分なコストで軽減する。
FGDILPは、正のプレフィックス予測プロンプトを用いて、注意空間における文脈化された表現と対比する。
我々は、FGDILPが発話レベルと文脈レベルの両方において有害性に関して制御されたテキスト生成を可能にすることを検証した。
論文 参考訳(メタデータ) (2024-02-23T09:04:48Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and
Implicit Hate Speech Detection [33.715318646717385]
ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。
このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。
有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
論文 参考訳(メタデータ) (2022-03-17T17:57:56Z) - Leashing the Inner Demons: Self-Detoxification for Language Models [13.576289320208511]
言語モデル(LM)は、トレーニング中に見られる有害な言語を再現(または増幅)することができる。
我々は、プロンプト、復号化戦略、学習コーパスが出力に与える影響を分析する。
本稿では,言語モデルに対して,新たな大きなコーパスや外部識別器を使わずに「デトックス化」を行うための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-06T23:55:12Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z) - Speech Toxicity Analysis: A New Spoken Language Processing Task [32.297717021285344]
ヘイトスピーチ(英: hate speech)またはヘイトスピーチ(英: hate speech)は、今日のオンラインソーシャルメディアを悩ませる重要な問題の1つである。
音声音声から有害性を検出する新しい音声言語処理タスクを提案する。
DeToxyは、様々な公開音声データベースから得られた英語音声に対する、初めて公開された毒性アノテートデータセットである。
論文 参考訳(メタデータ) (2021-10-14T17:51:04Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。