論文の概要: A Survey of Toxic Comment Classification Methods
- arxiv url: http://arxiv.org/abs/2112.06412v1
- Date: Mon, 13 Dec 2021 04:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 04:09:38.844254
- Title: A Survey of Toxic Comment Classification Methods
- Title(参考訳): 有毒コメント分類法に関する調査研究
- Authors: Kehan Wang, Jiaxi Yang, Hongjun Wu
- Abstract要約: 我々は,CNN,ネイブベイズモデル,LSTMなどの機械学習手法を用いて毒性検知器の構築を試みた。
我々はLSTMとCNNを用いて非常に高精度なモデルを作成し、それらを言語処理におけるゴート・ソリューションであるネイブ・ベイズ・モデルと比較した。
- 参考スコア(独自算出の注目度): 1.0312968200748118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While in real life everyone behaves themselves at least to some extent, it is
much more difficult to expect people to behave themselves on the internet,
because there are few checks or consequences for posting something toxic to
others. Yet, for people on the other side, toxic texts often lead to serious
psychological consequences. Detecting such toxic texts is challenging. In this
paper, we attempt to build a toxicity detector using machine learning methods
including CNN, Naive Bayes model, as well as LSTM. While there has been
numerous groundwork laid by others, we aim to build models that provide higher
accuracy than the predecessors. We produced very high accuracy models using
LSTM and CNN, and compared them to the go-to solutions in language processing,
the Naive Bayes model. A word embedding approach is also applied to empower the
accuracy of our models.
- Abstract(参考訳): 実生活では、誰もが少なくともある程度は振る舞うが、他人に有害なものを投稿するためのチェックや結果がほとんどないため、人々がインターネット上で振る舞うことを期待するのはずっと難しい。
しかし、反対側の人にとっては、有害なテキストは深刻な心理的結果をもたらすことが多い。
このような有害なテキストの検出は難しい。
本稿では, cnn, naive bayesモデル, lstmなどの機械学習手法を用いた毒性検出器の構築を試みた。
他にも多くの基礎研究が行われてきたが、我々は前者よりも高精度なモデルの構築を目指している。
lstmとcnnを用いて高精度モデルを作成し,言語処理におけるgo-toソリューションであるnaive bayesモデルと比較した。
単語埋め込みアプローチは、モデルの精度を高めるためにも適用されます。
関連論文リスト
- Toxic Subword Pruning for Dialogue Response Generation on Large Language Models [51.713448010799986]
toxPrune (textbfToxic Subword textbfPruning) を提案する。
ToxPruneは、明らかに対話応答生成のタスクにおいて、有害言語モデルNSFW-3Bを同時に改善する。
論文 参考訳(メタデータ) (2024-10-05T13:30:33Z) - Efficient Detection of Toxic Prompts in Large Language Models [8.794371569341429]
大型言語モデル(LLM)は、有害または非倫理的な反応を誘発する有害なプロンプトを作る悪意のある個人によって利用することができる。
LLMの有害なプロンプトを効率的に検出する軽量グレーボックスであるToxicDetectorを提案する。
ToxicDetectorの精度は96.39%、偽陽性率は2.00%であり、最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-08-21T15:54:04Z) - ToViLaG: Your Visual-Language Generative Model is Also An Evildoer [36.60526586838288]
近年の大規模ビジュアルランゲージ生成モデル(VLGM)は,マルチモーダル画像/テキスト生成において前例のない改善を実現している。
これらのモデルはまた、攻撃的なテキストやポルノ画像などの有害なコンテンツを生成し、重大な倫理的リスクを生じさせる可能性がある。
この研究は、様々なVLGMにまたがる毒性生成と毒性データへの感受性の妥当性を掘り下げるものである。
論文 参考訳(メタデータ) (2023-12-13T08:25:07Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - NoisyHate: Benchmarking Content Moderation Machine Learning Models with
Human-Written Perturbations Online [14.95221806760152]
本稿では,有毒な音声検出モデルのための人手による摂動を含むベンチマークテストセットを提案する。
また、このデータをBERTやRoBERTaといった最先端の言語モデル上でテストし、実際の人間による摂動による敵攻撃が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-18T14:54:57Z) - Which one is more toxic? Findings from Jigsaw Rate Severity of Toxic
Comments [0.966840768820136]
本稿では,Jigsawによる毒性度測定データセットを用いて,異なるトランスフォーマーと従来の機械学習モデルの比較評価を行った。
さらに、説明可能性分析を用いたモデル予測の問題点について述べる。
論文 参考訳(メタデータ) (2022-06-27T13:20:24Z) - Exploring the Limits of Domain-Adaptive Training for Detoxifying
Large-Scale Language Models [84.30718841659531]
言語モデルの毒性を低減するために,ドメイン適応型学習について検討する。
トレーニングコーパスでは, LMの生成能力を活用することを提案する。
次に,126Mから530Bまでのパラメータサイズを持つLMを包括的に研究した。
論文 参考訳(メタデータ) (2022-02-08T22:10:40Z) - Scaling Language Models: Methods, Analysis & Insights from Training
Gopher [83.98181046650664]
本稿では,トランスフォーマーに基づく言語モデルの性能を,幅広いモデルスケールで解析する。
スケールからのゲインは、理解、事実確認、有害言語の同定などにおいて最大である。
我々は、AIの安全性と下流の害の軽減に対する言語モデルの適用について論じる。
論文 参考訳(メタデータ) (2021-12-08T19:41:47Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。