論文の概要: On The Robustness of Offensive Language Classifiers
- arxiv url: http://arxiv.org/abs/2203.11331v1
- Date: Mon, 21 Mar 2022 20:44:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 12:36:22.512771
- Title: On The Robustness of Offensive Language Classifiers
- Title(参考訳): 攻撃的言語分類器のロバスト性について
- Authors: Jonathan Rusert, Zubair Shafiq, Padmini Srinivasan
- Abstract要約: ソーシャルメディアプラットフォームは、ヘイトフル、人種差別、その他の攻撃的スピーチを大規模に戦うために、機械学習ベースの攻撃的言語分類システムをデプロイしている。
我々は、より巧妙な敵対的攻撃に対して、最先端の攻撃的言語分類器の堅牢性について検討する。
以上の結果から,攻撃的言語分類器の精度は50%以上低下し,修正文の可読性や意味も維持できることがわかった。
- 参考スコア(独自算出の注目度): 10.742675209112623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media platforms are deploying machine learning based offensive
language classification systems to combat hateful, racist, and other forms of
offensive speech at scale. However, despite their real-world deployment, we do
not yet comprehensively understand the extent to which offensive language
classifiers are robust against adversarial attacks. Prior work in this space is
limited to studying robustness of offensive language classifiers against
primitive attacks such as misspellings and extraneous spaces. To address this
gap, we systematically analyze the robustness of state-of-the-art offensive
language classifiers against more crafty adversarial attacks that leverage
greedy- and attention-based word selection and context-aware embeddings for
word replacement. Our results on multiple datasets show that these crafty
adversarial attacks can degrade the accuracy of offensive language classifiers
by more than 50% while also being able to preserve the readability and meaning
of the modified text.
- Abstract(参考訳): ソーシャルメディアプラットフォームは、ヘイトフル、人種差別、その他の攻撃的スピーチを大規模に戦うために、機械学習ベースの攻撃的言語分類システムをデプロイしている。
しかし, 実際の展開にもかかわらず, 攻撃的言語分類器が敵攻撃に対して頑健である程度を, 網羅的に理解していない。
この領域での以前の仕事は、ミススペルや余剰空間のような原始的な攻撃に対する攻撃言語分類器の頑健性の研究に限られている。
このギャップに対処するために,我々は,欲望と注意に基づく単語選択と文脈認識による単語置換の組込みを利用した,より巧妙な敵意攻撃に対する,最先端の攻撃言語分類器の頑健さを体系的に分析する。
複数のデータセットを用いた結果から,これらの巧妙な敵意攻撃は,攻撃言語分類器の精度を50%以上低下させると同時に,修正文の可読性と意味を保持できることが示された。
関連論文リスト
- Developing Linguistic Patterns to Mitigate Inherent Human Bias in
Offensive Language Detection [1.6574413179773761]
本稿では,ラベル付けプロセスにおけるバイアスを低減するための言語データ拡張手法を提案する。
このアプローチは、複数の言語にわたる攻撃的な言語分類タスクを改善する可能性がある。
論文 参考訳(メタデータ) (2023-12-04T10:20:36Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Identifying Adversarial Attacks on Text Classifiers [32.958568467774704]
本稿では,その生成にどの方法が使われたかを決定するために,逆テキストを解析する。
最初のコントリビューションは、攻撃検出とラベル付けのための広範なデータセットです。
第2のコントリビューションとして、このデータセットを使用して、攻撃識別のための多くの分類器を開発し、ベンチマークします。
論文 参考訳(メタデータ) (2022-01-21T06:16:04Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Automatic Expansion and Retargeting of Arabic Offensive Language
Training [12.111859709582617]
当社は2つの重要な洞察を取り入れている。つまり、Twitter上のリプライがしばしば反対を示唆し、一部のアカウントは特定のターゲットに対して攻撃的であることに固執している。
本手法はアラビア語のツイートに対して13%と79%の相対的なF1尺度が有効であることを示す。
論文 参考訳(メタデータ) (2021-11-18T08:25:09Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - It's Morphin' Time! Combating Linguistic Discrimination with
Inflectional Perturbations [68.16751625956243]
完全な標準英語コーパスのみが、非標準言語的背景から少数民族を区別するためにニューラルネットワークを前提としている。
我々は、単語の屈折形態を乱して、可塑性で意味論的に類似した逆の例を作る。
論文 参考訳(メタデータ) (2020-05-09T04:01:43Z) - Universal Adversarial Attacks with Natural Triggers for Text
Classification [30.74579821832117]
我々は、自然の英語のフレーズに近づきながら、分類システムを混乱させる敵攻撃を開発する。
我々の攻撃は、従来のモデルよりも識別が困難でありながら、分類タスクのモデル精度を効果的に低下させる。
論文 参考訳(メタデータ) (2020-05-01T01:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。