論文の概要: Which one is more toxic? Findings from Jigsaw Rate Severity of Toxic
Comments
- arxiv url: http://arxiv.org/abs/2206.13284v1
- Date: Mon, 27 Jun 2022 13:20:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 20:25:57.391086
- Title: Which one is more toxic? Findings from Jigsaw Rate Severity of Toxic
Comments
- Title(参考訳): どちらが有毒ですか。
ToxicコメントのJigsawレートの重大さからの発見
- Authors: Millon Madhur Das, Punyajoy Saha, Mithun Das
- Abstract要約: 本稿では,Jigsawによる毒性度測定データセットを用いて,異なるトランスフォーマーと従来の機械学習モデルの比較評価を行った。
さらに、説明可能性分析を用いたモデル予測の問題点について述べる。
- 参考スコア(独自算出の注目度): 0.966840768820136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of online hate speech has necessitated the creation of
algorithms which can detect toxicity. Most of the past research focuses on this
detection as a classification task, but assigning an absolute toxicity label is
often tricky. Hence, few of the past works transform the same task into a
regression. This paper shows the comparative evaluation of different
transformers and traditional machine learning models on a recently released
toxicity severity measurement dataset by Jigsaw. We further demonstrate the
issues with the model predictions using explainability analysis.
- Abstract(参考訳): オンラインヘイトスピーチの普及は、毒性を検出するアルゴリズムの作成を必要とした。
過去の研究のほとんどは、この検出を分類タスクとして焦点を当てているが、絶対毒性ラベルの割り当ては難しいことが多い。
したがって、過去の作業のほとんどは、同じタスクを回帰に変換する。
本稿では,Jigsaw が最近リリースした毒性度測定データセットを用いて,異なるトランスフォーマーと従来の機械学習モデルの比較評価を行った。
さらに、説明可能性分析を用いてモデル予測の問題を示す。
関連論文リスト
- Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - On the Challenges of Using Black-Box APIs for Toxicity Evaluation in
Research [9.014929555228916]
毒性を検出するためのブラックボックスの商用APIは静的ではないが、意図しない弱点やバイアスに対処するためにしばしば再訓練される。
本研究は, 毒性抑制を目的としたモデルと手法の相対的メリットを比較検討した。
論文 参考訳(メタデータ) (2023-04-24T19:11:51Z) - ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and
Implicit Hate Speech Detection [33.715318646717385]
ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。
このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。
有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
論文 参考訳(メタデータ) (2022-03-17T17:57:56Z) - Cyberbullying Classifiers are Sensitive to Model-Agnostic Perturbations [15.152559543181523]
本研究は,サイバーバブル検出における敵行動と増強の効果について,初めて検討したものである。
モデル非依存の語彙置換が性能を著しく損なうことを示す。
毒性に関する先行研究で提案された増強は効果が低いことが証明された。
論文 参考訳(メタデータ) (2022-01-17T12:48:27Z) - A Survey of Toxic Comment Classification Methods [1.0312968200748118]
我々は,CNN,ネイブベイズモデル,LSTMなどの機械学習手法を用いて毒性検知器の構築を試みた。
我々はLSTMとCNNを用いて非常に高精度なモデルを作成し、それらを言語処理におけるゴート・ソリューションであるネイブ・ベイズ・モデルと比較した。
論文 参考訳(メタデータ) (2021-12-13T04:17:20Z) - Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。
また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文 参考訳(メタデータ) (2021-11-19T13:57:26Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - ToxCCIn: Toxic Content Classification with Interpretability [16.153683223016973]
ソーシャルメディア上での攻撃言語や毒性検出などのタスクには説明が重要です。
単純かつ強力な仮定に基づき,トランスモデルの解釈性を改善する手法を提案する。
このアプローチは,ロジスティック回帰分析によって提供されるものの品質を超える説明を生成できる。
論文 参考訳(メタデータ) (2021-03-01T22:17:10Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。