論文の概要: HateGPT: Unleashing GPT-3.5 Turbo to Combat Hate Speech on X
- arxiv url: http://arxiv.org/abs/2411.09214v1
- Date: Thu, 14 Nov 2024 06:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:22:29.762128
- Title: HateGPT: Unleashing GPT-3.5 Turbo to Combat Hate Speech on X
- Title(参考訳): ヘイトGPT:GPT-3.5ターボを解放、Xでヘイトスピーチを非難
- Authors: Aniket Deroy, Subhankar Maity,
- Abstract要約: マクロF1スコアを用いた分類モデルの性能評価を行った。
その結果,ラン1が最高性能を示し,精度とリコールの点でモデルが一貫して良好に動作していることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The widespread use of social media platforms like Twitter and Facebook has enabled people of all ages to share their thoughts and experiences, leading to an immense accumulation of user-generated content. However, alongside the benefits, these platforms also face the challenge of managing hate speech and offensive content, which can undermine rational discourse and threaten democratic values. As a result, there is a growing need for automated methods to detect and mitigate such content, especially given the complexity of conversations that may require contextual analysis across multiple languages, including code-mixed languages like Hinglish, German-English, and Bangla. We participated in the English task where we have to classify English tweets into two categories namely Hate and Offensive and Non Hate-Offensive. In this work, we experiment with state-of-the-art large language models like GPT-3.5 Turbo via prompting to classify tweets into Hate and Offensive or Non Hate-Offensive. In this study, we evaluate the performance of a classification model using Macro-F1 scores across three distinct runs. The Macro-F1 score, which balances precision and recall across all classes, is used as the primary metric for model evaluation. The scores obtained are 0.756 for run 1, 0.751 for run 2, and 0.754 for run 3, indicating a high level of performance with minimal variance among the runs. The results suggest that the model consistently performs well in terms of precision and recall, with run 1 showing the highest performance. These findings highlight the robustness and reliability of the model across different runs.
- Abstract(参考訳): TwitterやFacebookといったソーシャルメディアプラットフォームの普及により、あらゆる年齢の人々が自分の考えや経験を共有できるようになった。
しかし、これらのプラットフォームはまた、ヘイトスピーチと攻撃的なコンテンツを管理するという課題に直面しており、これは合理的な言論を損ね、民主的価値を脅かす可能性がある。
結果として、Hinglishやドイツ語、Banglaといったコード混在型言語を含む複数の言語でコンテキスト分析を必要とする会話の複雑さを考えると、このようなコンテンツを検出および緩和するための自動メソッドの必要性が高まっている。
我々は、英語のつぶやきを、HateとOffensiveとNon Hate-Offensiveの2つのカテゴリに分類する必要がある英語のタスクに参加した。
本研究では,GPT-3.5 Turboのような最先端の大規模言語モデルを用いて,ツイートをHate,Offensive,Non Hate-Offensiveに分類する。
本研究では,マクロF1スコアを用いた分類モデルの性能評価を行った。
すべてのクラスで精度とリコールのバランスをとるマクロF1スコアは、モデル評価の主要な指標として使用される。
スコアは、ラン1の0.756、ラン2の0.751、ラン3の0.754である。
その結果,ラン1が最高性能を示し,精度とリコールの点でモデルが一貫して良好に動作していることが示唆された。
これらの知見は、異なるランをまたいだモデルの堅牢性と信頼性を浮き彫りにした。
関連論文リスト
- Hate Speech and Offensive Content Detection in Indo-Aryan Languages: A
Battle of LSTM and Transformers [0.0]
我々はベンガル語、アサメセ語、ボド語、シンハラ語、グジャラート語の5つの異なる言語でヘイトスピーチの分類を比較した。
Bert Base Multilingual Casedは、ベンガル語で0.67027得点、アサメ語で0.70525得点を達成した。
シンハラではXLM-RはF1スコア0.83493で際立っているが、グジャラティではF1スコア0.76601で照らされたカスタムLSTMベースのモデルである。
論文 参考訳(メタデータ) (2023-12-09T20:24:00Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - Multilingual Hate Speech and Offensive Content Detection using Modified
Cross-entropy Loss [0.0]
大規模な言語モデルは大量のデータに基づいてトレーニングされており、コンテキスト埋め込みも利用しています。
データのバランスもよくないので、修正されたクロスエントロピー損失を使ってこの問題に対処しました。
我々のチーム(HNLP)は、それぞれ英語サブタスクAと英語サブタスクBで0.808、0.639のマクロF1スコアを達成した。
論文 参考訳(メタデータ) (2022-02-05T20:31:40Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - One to rule them all: Towards Joint Indic Language Hate Speech Detection [7.296361860015606]
本稿では、最先端のトランスフォーマー言語モデルを用いて、ヘイトや攻撃的な音声検出を共同で学習する多言語アーキテクチャを提案する。
提案したテストコーパスでは,サブタスク1AのマクロF1スコアが0.7996,0.7748,0.8651,サブタスク1Bのきめ細かい分類において0.6268,0.5603となる。
論文 参考訳(メタデータ) (2021-09-28T13:30:00Z) - Detecting Abusive Albanian [5.092028049119383]
scShajは、さまざまなソーシャルメディアプラットフォーム上のユーザーテキストコンテンツから構築されたヘイトスピーチと攻撃的なスピーチのための注釈付きデータセットである。
データセットは3つの異なる分類モデルを用いてテストされ、最も良いものは攻撃言語を識別するためのF1スコア0.77を達成することである。
論文 参考訳(メタデータ) (2021-07-28T18:47:32Z) - An Online Multilingual Hate speech Recognition System [13.87667165678441]
6つのデータセットを1つの同質なデータセットに組み合わせて分析し、3つのクラスに分類します。
ほぼリアルタイムで有効なメトリックでページを識別し、スコア付けするツールを作成し、フィードバックでモデルを再トレーニングします。
英語とヒンディー語という2つの言語モデル上での多言語モデルの競合性能を証明し、ほとんどの単言語モデルに匹敵するあるいは優れた性能をもたらす。
論文 参考訳(メタデータ) (2020-11-23T16:33:48Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z) - TuringAdvice: A Generative and Dynamic Evaluation of Language Use [90.3029315711237]
言語理解モデルのための新しい課題タスクとデータセットであるTuringAdviceを提案する。
現実の人が現在直面している記述された状況を考えると、モデルは自然言語で有益なアドバイスを生成する必要がある。
実証的な結果は、今日のモデルがTuringAdviceで苦労していることを示している。
論文 参考訳(メタデータ) (2020-04-07T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。