論文の概要: No offence, Bert -- I insult only humans! Multiple addressees
sentence-level attack on toxicity detection neural network
- arxiv url: http://arxiv.org/abs/2310.13099v1
- Date: Thu, 19 Oct 2023 18:56:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 01:35:07.559277
- Title: No offence, Bert -- I insult only humans! Multiple addressees
sentence-level attack on toxicity detection neural network
- Title(参考訳): 悪気はない、バート、私は人間だけを侮辱する!
有毒度検出ニューラルネットワークに対する複数文レベルの攻撃
- Authors: Sergey Berezin, Reza Farahbakhsh, Noel Crespi
- Abstract要約: ブラックボックス毒性検出モデルに対する簡易かつ効率的な文レベル攻撃を導入する。
ヘイトフルメッセージの最後にいくつかの肯定的な単語や文を追加することで、ニューラルネットワークの予測を変更し、毒性検出システムチェックをパスすることができます。
- 参考スコア(独自算出の注目度): 2.1830650692803863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a simple yet efficient sentence-level attack on black-box
toxicity detector models. By adding several positive words or sentences to the
end of a hateful message, we are able to change the prediction of a neural
network and pass the toxicity detection system check. This approach is shown to
be working on seven languages from three different language families. We also
describe the defence mechanism against the aforementioned attack and discuss
its limitations.
- Abstract(参考訳): ブラックボックス毒性検出モデルに対する簡易かつ効率的な文レベル攻撃を導入する。
ヘイトフルメッセージの最後にいくつかのポジティブな単語や文を追加することで、ニューラルネットワークの予測を変更し、毒性検出システムチェックをパスすることができる。
このアプローチは、3つの異なる言語ファミリーから7つの言語に取り組んでいることが示されている。
また、上記の攻撃に対する防御機構について述べ、その限界について論じる。
関連論文リスト
- Towards Building a Robust Toxicity Predictor [13.162016701556725]
本稿では, 有害なテキストサンプルを良性として予測するために, SOTAテキスト分類器に小さな単語レベルの摂動を導入し, 新たな逆攻撃であるtexttToxicTrapを提案する。
2つの新しい目標関数の設計により、ToxicTrapはマルチクラスおよびマルチラベルの有害言語検知器の弱点を特定することができる。
論文 参考訳(メタデータ) (2024-04-09T22:56:05Z) - Robust Conversational Agents against Imperceptible Toxicity Triggers [29.71051151620196]
我々は,会話エージェントに対する攻撃について,一貫性,関連性,流布性の観点から認識し難いものを提案する。
次に,攻撃を緩和するだけでなく,会話の流れの維持を図るような攻撃に対する防御機構を提案する。
論文 参考訳(メタデータ) (2022-05-05T01:48:39Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - Putting words into the system's mouth: A targeted attack on neural
machine translation using monolingual data poisoning [50.67997309717586]
本稿では、悪意のある敵が、バックトランスレーションを用いて訓練されたシステムのトレーニングセットに、モノリンガルテキストの少量の有毒サンプルを挿入する中毒攻撃を提案する。
このサンプルは、パドリング誤報のような特定の標的となる翻訳行動を引き起こすように設計されている。
有毒な例を作るための2つの方法を示し、トレーニングセットの0.02%にしか満たない少数の事例しか、攻撃を成功させるには不十分であることを示した。
論文 参考訳(メタデータ) (2021-07-12T08:07:09Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Concealed Data Poisoning Attacks on NLP Models [56.794857982509455]
逆攻撃はテスト時間入力の摂動によってNLPモデル予測を変化させる。
我々は,入力に所望のトリガーフレーズが存在する場合,相手がモデル予測を制御できる新しいデータ中毒攻撃を開発した。
論文 参考訳(メタデータ) (2020-10-23T17:47:06Z) - Fortifying Toxic Speech Detectors Against Veiled Toxicity [38.20984369410193]
本研究では,既存の有毒な音声検出装置を,大規模にラベル付けされた有毒なコーパスを使わずに強化する枠組みを提案する。
ほんの一握りのサンプルが、より偽装された犯罪の桁を表わすのに使われている。
論文 参考訳(メタデータ) (2020-10-07T04:43:48Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z) - Attacking Neural Text Detectors [0.0]
本稿では,ニューラルテキスト検出器に対するブラックボックス攻撃の2つのクラスについて述べる。
ホモグリフとミススペル攻撃は、ニューラルテキスト上の一般的なニューラルテキスト検出器のリコールを97.44%から0.26%、22.68%へと減少させる。
結果は、攻撃が他の神経テキスト検出器に転送可能であることも示している。
論文 参考訳(メタデータ) (2020-02-19T04:18:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。