論文の概要: Efficient Hate Speech Detection: Evaluating 38 Models from Traditional Methods to Transformers
- arxiv url: http://arxiv.org/abs/2509.14266v1
- Date: Sun, 14 Sep 2025 21:17:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.89648
- Title: Efficient Hate Speech Detection: Evaluating 38 Models from Traditional Methods to Transformers
- Title(参考訳): 効率の良いヘイト音声検出:従来の方法から変圧器への38モデルの評価
- Authors: Mahmoud Abusaqer, Jamil Saquer, Hazim Shatnawi,
- Abstract要約: 本研究は,6.5Kから451Kまでのデータセットにわたるヘイトスピーチ検出における38のモデル構成を評価する。
以上の結果から,変換器,特にRoBERTaは精度が高く,F1スコアは90%を超えていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of hate speech on social media necessitates automated detection systems that balance accuracy with computational efficiency. This study evaluates 38 model configurations in detecting hate speech across datasets ranging from 6.5K to 451K samples. We analyze transformer architectures (e.g., BERT, RoBERTa, Distil-BERT), deep neural networks (e.g., CNN, LSTM, GRU, Hierarchical Attention Networks), and traditional machine learning methods (e.g., SVM, CatBoost, Random Forest). Our results show that transformers, particularly RoBERTa, consistently achieve superior performance with accuracy and F1-scores exceeding 90%. Among deep learning approaches, Hierarchical Attention Networks yield the best results, while traditional methods like CatBoost and SVM remain competitive, achieving F1-scores above 88% with significantly lower computational costs. Additionally, our analysis highlights the importance of dataset characteristics, with balanced, moderately sized unprocessed datasets outperforming larger, preprocessed datasets. These findings offer valuable insights for developing efficient and effective hate speech detection systems.
- Abstract(参考訳): ソーシャルメディア上でのヘイトスピーチの拡散は、精度と計算効率のバランスをとる自動検出システムを必要とする。
本研究は,6.5Kから451Kまでのデータセットにわたるヘイトスピーチ検出における38のモデル構成を評価する。
我々は、トランスフォーマーアーキテクチャ(例えば、BERT、RoBERTa、Distil-BERT)、ディープニューラルネットワーク(例えば、CNN、LSTM、GRU、階層型アテンションネットワーク)、従来の機械学習手法(例えば、SVM、CatBoost、ランダムフォレスト)を分析します。
以上の結果から,変換器,特にRoBERTaは精度が高く,F1スコアは90%を超えていることがわかった。
ディープラーニングのアプローチの中で、階層的注意ネットワークが最良の結果をもたらす一方で、CatBoostやSVMといった従来の手法は競争力を持ち、計算コストを著しく削減したF1スコアを88%以上達成している。
さらに、我々の分析では、バランスの取れた、適度なサイズの未処理データセットが、より大きな、事前処理されたデータセットよりも優れたデータセット特性の重要性を強調しています。
これらの知見は,効果的かつ効果的なヘイトスピーチ検出システムの開発に有用である。
関連論文リスト
- Exploring the Relationship between Brain Hemisphere States and Frequency Bands through Deep Learning Optimization Techniques [3.966519779235704]
本研究は,脳波周波数帯域における様々な畳み込みを用いた性能評価を行い,左右半球の効率的なクラス予測について検討した。
Adagrad と RMSprop は、異なる周波数帯域で一貫して良好に動作し、Adadelta はクロスモデル評価において堅牢な性能を示した。
深層ネットワークは複雑なパターンを学習する際の競合性能を示すが、浅い3層ネットワークは精度が低い場合があり、計算効率が向上する。
論文 参考訳(メタデータ) (2025-09-17T15:26:45Z) - CAT: Causal Attention Tuning For Injecting Fine-grained Causal Knowledge into Large Language Models [42.12079243701232]
因果注意チューニング(Causal Attention Tuning, CAT)は、注意機構に微粒な因果知識を注入する新しいアプローチである。
トークンレベルの因果信号を自動的に生成するために,人間の先行情報を活用する自動パイプラインを提案する。
CatはSTGデータセットで5.76%、下流タスクで1.56%の平均的な改善を実現している。
論文 参考訳(メタデータ) (2025-09-01T15:13:15Z) - Amplifying Emotional Signals: Data-Efficient Deep Learning for Robust Speech Emotion Recognition [0.0]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な課題である。
我々は,SVM(Support Vector Machines),LSTM(Long Short-Term Memory Network),CNN(Convolutional Neural Networks)など,機械学習モデルのスイートを開発し,評価する。
我々は、比較的小さなデータセットの制約にもかかわらず、トランスファーラーニングと革新的なデータ拡張手法を戦略的に活用することにより、我々のモデルは印象的なパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2025-08-26T19:08:54Z) - Efficient Fault Detection in WSN Based on PCA-Optimized Deep Neural Network Slicing Trained with GOA [0.6827423171182154]
従来の障害検出手法は、効率的なパフォーマンスのためにディープニューラルネットワーク(DNN)の最適化に苦労することが多い。
本研究では,これらの制約に対処するためにGrasshopper Optimization Algorithm(GOA)によって最適化されたDNNと主成分分析(PCA)を組み合わせた新しいハイブリッド手法を提案する。
従来の手法よりも優れた精度とリコールで,99.72%の分類精度を実現している。
論文 参考訳(メタデータ) (2025-05-11T15:51:56Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Evaluating raw waveforms with deep learning frameworks for speech
emotion recognition [0.0]
特徴抽出段階なしで生のオーディオファイルをディープニューラルネットワークに直接供給するモデルを表現する。
EMO-DB、RAVDESS、TESS、CREMA、SAVEE、TESS+RAVDESSの6つのデータセットを使用します。
提案モデルは,CNNモデルによるEMO-DBの精度90.34%,RAVDESSの精度90.42%,LSTMモデルによるTESSの精度99.48%,CNNモデルによるCREMAの精度69.72%,CNNモデルによるSAVEEの精度85.76%,の精度90.34%を実行する。
論文 参考訳(メタデータ) (2023-07-06T07:27:59Z) - Transformer-based approaches to Sentiment Detection [55.41644538483948]
テキスト分類のための4種類の最先端変圧器モデルの性能について検討した。
RoBERTa変換モデルは82.6%のスコアでテストデータセット上で最高のパフォーマンスを示し、品質予測に非常に推奨されている。
論文 参考訳(メタデータ) (2023-03-13T17:12:03Z) - From Environmental Sound Representation to Robustness of 2D CNN Models
Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文 参考訳(メタデータ) (2022-04-14T15:14:08Z) - SignalNet: A Low Resolution Sinusoid Decomposition and Estimation
Network [79.04274563889548]
本稿では,正弦波数を検出するニューラルネットワークアーキテクチャであるSignalNetを提案する。
基礎となるデータ分布と比較して,ネットワークの結果を比較するための最悪の学習しきい値を導入する。
シミュレーションでは、我々のアルゴリズムは常に3ビットデータのしきい値を超えることができるが、しばしば1ビットデータのしきい値を超えることはできない。
論文 参考訳(メタデータ) (2021-06-10T04:21:20Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - A Survey on Impact of Transient Faults on BNN Inference Accelerators [0.9667631210393929]
ビッグデータブームにより、非常に大きなデータセットへのアクセスと分析が容易になります。
ディープラーニングモデルは、計算能力と極めて高いメモリアクセスを必要とする。
本研究では,ソフトエラーが独自の深層学習アルゴリズムに与える影響が画像の劇的な誤分類を引き起こす可能性を実証した。
論文 参考訳(メタデータ) (2020-04-10T16:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。