論文の概要: Cyberbullying Classifiers are Sensitive to Model-Agnostic Perturbations
- arxiv url: http://arxiv.org/abs/2201.06384v1
- Date: Mon, 17 Jan 2022 12:48:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 11:31:40.564995
- Title: Cyberbullying Classifiers are Sensitive to Model-Agnostic Perturbations
- Title(参考訳): サイバーいじめ分類器はモデル非依存の摂動に敏感である
- Authors: Chris Emmery, \'Akos K\'ad\'ar, Grzegorz Chrupa{\l}a, Walter Daelemans
- Abstract要約: 本研究は,サイバーバブル検出における敵行動と増強の効果について,初めて検討したものである。
モデル非依存の語彙置換が性能を著しく損なうことを示す。
毒性に関する先行研究で提案された増強は効果が低いことが証明された。
- 参考スコア(独自算出の注目度): 15.152559543181523
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A limited amount of studies investigates the role of model-agnostic
adversarial behavior in toxic content classification. As toxicity classifiers
predominantly rely on lexical cues, (deliberately) creative and evolving
language-use can be detrimental to the utility of current corpora and
state-of-the-art models when they are deployed for content moderation. The less
training data is available, the more vulnerable models might become. This study
is, to our knowledge, the first to investigate the effect of adversarial
behavior and augmentation for cyberbullying detection. We demonstrate that
model-agnostic lexical substitutions significantly hurt classifier performance.
Moreover, when these perturbed samples are used for augmentation, we show
models become robust against word-level perturbations at a slight trade-off in
overall task performance. Augmentations proposed in prior work on toxicity
prove to be less effective. Our results underline the need for such evaluations
in online harm areas with small corpora. The perturbed data, models, and code
are available for reproduction at https://github.com/cmry/augtox
- Abstract(参考訳): 限定的な研究は、有害な内容分類におけるモデル非依存的敵対行動の役割を研究する。
毒性分類器は、主に語彙的手がかりに依存しているため、(決定的に)創造的で進化する言語利用は、コンテンツモデレーションにデプロイされる際に、現在のコーパスや最先端のモデルの有用性に有害である。
トレーニングデータが少ないほど、より脆弱なモデルになる可能性がある。
この研究は、我々の知る限り、初めて、サイバーいじめ検出に対する敵対行動と強化の効果を調査するものである。
モデル非依存の語彙置換が分類器の性能を著しく損なうことを示す。
さらに,これらの摂動サンプルを拡張に使用すると,全体のタスク性能に多少のトレードオフがある場合,単語レベルの摂動に対してモデルが頑健になることを示す。
毒性に関する先行研究で提案された増強は効果が低いことが証明された。
以上の結果から,小規模コーパスのオンライン害地域における評価の必要性が示唆された。
摂動データ、モデル、コードはhttps://github.com/cmry/augtoxで再生可能である。
関連論文リスト
- Mitigating annotation shift in cancer classification using single image generative models [1.1864334278373239]
本研究は乳房マンモグラフィー領域における癌分類におけるアノテーションシフトをシミュレートし,解析し,緩和する。
本研究では, 影響のあるクラスに対して, 単一画像生成モデルに基づくトレーニングデータ拡張手法を提案する。
本研究は、深層学習乳癌分類におけるアノテーションシフトに関する重要な知見を提供し、ドメインシフトの課題を克服するための単一画像生成モデルの可能性を探る。
論文 参考訳(メタデータ) (2024-05-30T07:02:50Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Leashing the Inner Demons: Self-Detoxification for Language Models [13.576289320208511]
言語モデル(LM)は、トレーニング中に見られる有害な言語を再現(または増幅)することができる。
我々は、プロンプト、復号化戦略、学習コーパスが出力に与える影響を分析する。
本稿では,言語モデルに対して,新たな大きなコーパスや外部識別器を使わずに「デトックス化」を行うための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-06T23:55:12Z) - Investigating Bias In Automatic Toxic Comment Detection: An Empirical
Study [1.5609988622100528]
オンラインプラットフォームの増加に伴い、これらのプラットフォーム上でのユーザーエンゲージメントは、コメントやリアクションを通じて急増している。
このような文章によるコメントの大部分は、聴衆に対して虐待的で無礼で侮辱的です。
機械学習システムがプラットフォームに現れるコメントをチェックするために、トレーニングデータに存在するバイアスが分類器に渡され、クラス、宗教、性別のセットに対する差別につながる。
論文 参考訳(メタデータ) (2021-08-14T08:24:13Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z) - ToxCCIn: Toxic Content Classification with Interpretability [16.153683223016973]
ソーシャルメディア上での攻撃言語や毒性検出などのタスクには説明が重要です。
単純かつ強力な仮定に基づき,トランスモデルの解釈性を改善する手法を提案する。
このアプローチは,ロジスティック回帰分析によって提供されるものの品質を超える説明を生成できる。
論文 参考訳(メタデータ) (2021-03-01T22:17:10Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。