論文の概要: Using Machine Learning to Enhance the Detection of Obfuscated Abusive Words in Swahili: A Focus on Child Safety
- arxiv url: http://arxiv.org/abs/2602.13455v1
- Date: Fri, 13 Feb 2026 21:02:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.038587
- Title: Using Machine Learning to Enhance the Detection of Obfuscated Abusive Words in Swahili: A Focus on Child Safety
- Title(参考訳): 機械学習によるスワヒリにおける難読語検出の促進--子どもの安全に焦点をあてて
- Authors: Phyllis Nabangi, Abdul-Jalil Zakaria, Jema David Ndibwile,
- Abstract要約: 本研究はスワヒリにおける乱用難読言語の検出に焦点を当てた。
スワヒリ語はその人気から選ばれ、アフリカで最も広く話されている言語である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of digital technology has dramatically increased the potential for cyberbullying and online abuse, necessitating enhanced measures for detection and prevention, especially among children. This study focuses on detecting abusive obfuscated language in Swahili, a low-resource language that poses unique challenges due to its limited linguistic resources and technological support. Swahili is chosen due to its popularity and being the most widely spoken language in Africa, with over 16 million native speakers and upwards of 100 million speakers in total, spanning regions in East Africa and some parts of the Middle East. We employed machine learning models including Support Vector Machines (SVM), Logistic Regression, and Decision Trees, optimized through rigorous parameter tuning and techniques like Synthetic Minority Over-sampling Technique (SMOTE) to handle data imbalance. Our analysis revealed that, while these models perform well in high-dimensional textual data, our dataset's small size and imbalance limit our findings' generalizability. Precision, recall, and F1 scores were thoroughly analyzed, highlighting the nuanced performance of each model in detecting obfuscated language. This research contributes to the broader discourse on ensuring safer online environments for children, advocating for expanded datasets and advanced machine-learning techniques to improve the effectiveness of cyberbullying detection systems. Future work will focus on enhancing data robustness, exploring transfer learning, and integrating multimodal data to create more comprehensive and culturally sensitive detection mechanisms.
- Abstract(参考訳): デジタル技術の台頭は、サイバーいじめやオンライン虐待の可能性を劇的に増加させ、特に子供における検出と予防の強化を必要としている。
本研究では,低リソース言語であるスワヒリにおける乱用難読言語の検出に焦点をあてる。
スワヒリ語はアフリカで最も広く話されている言語であり、1600万人以上の母語話者と1億人以上の話者がいる。
SVM(Support Vector Machines)やロジスティック回帰(Logistic Regression)、決定木(Decision Trees)といった機械学習モデルを採用し、厳密なパラメータチューニングとSMOTE(Synthetic Minority Over-Sampling Technique)のようなテクニックを使ってデータの不均衡を処理しました。
分析の結果、これらのモデルは高次元テキストデータでは良好に機能するが、データセットのサイズは小さく、不均衡は結果の一般化性を制限していることがわかった。
精度,リコール,F1スコアを網羅的に分析し,難読言語検出における各モデルのニュアンスな性能を強調した。
本研究は, 子どもの安全なオンライン環境の確保, 拡張データセット, 高度な機械学習技術, サイバーバブル検出システムの有効性向上に寄与する。
今後は、データの堅牢性の向上、トランスファーラーニングの探求、マルチモーダルデータの統合による、より包括的で文化的に敏感な検出メカニズムの構築に注力する予定である。
関連論文リスト
- Identification of Malicious Posts on the Dark Web Using Supervised Machine Learning [0.0]
本研究は,ブラジルポルトガル語のダークウェブフォーラムから収集したデータにテキストマイニング技術と機械学習を適用し,悪意のある投稿を識別する。
私たちの知る限りでは、この領域でブラジルのポルトガル語コンテンツに焦点を当てた初めての研究である。
LightGBMとTF-IDFを用いた最高の性能モデルは、関連するポストを高精度に検出することができた。
論文 参考訳(メタデータ) (2025-11-28T13:51:18Z) - Multilingual Email Phishing Attacks Detection using OSINT and Machine Learning [0.0]
本稿では、オープンソースのインテリジェンス(OSINT)ツールと機械学習(ML)モデルを統合して、多言語データセット間のフィッシング検出を強化する。
NmapとTheHarvesterを用いて、ドメイン名、IPアドレス、オープンポートを含む17の機能を抽出し、検出精度を向上した。
論文 参考訳(メタデータ) (2025-01-15T11:05:25Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Vicinal Risk Minimization for Few-Shot Cross-lingual Transfer in Abusive
Language Detection [19.399281609371258]
高リソースから中低リソース言語への言語間変換学習は、励みのよい結果を示している。
我々は、言語間乱用言語検出を改善するために、ドメイン適応のためのデータ拡張と継続事前学習を利用する。
論文 参考訳(メタデータ) (2023-11-03T16:51:07Z) - Fine-Tuning Llama 2 Large Language Models for Detecting Online Sexual
Predatory Chats and Abusive Texts [2.406214748890827]
本稿では,Llama 2 7B-パラメーターモデルを用いて,オンライン性的捕食チャットと虐待言語の検出手法を提案する。
我々は、異なる大きさ、不均衡度、言語(英語、ローマ・ウルドゥー語、ウルドゥー語)のデータセットを用いてLLMを微調整する。
実験結果から,提案手法は3つの異なるデータセットに対して精度よく一貫した性能を示す。
論文 参考訳(メタデータ) (2023-08-28T16:18:50Z) - On the application of Large Language Models for language teaching and
assessment technology [18.735612275207853]
我々は,AIによる言語教育とアセスメントシステムに大規模言語モデルを導入する可能性を検討する。
より大きな言語モデルは、テキスト生成における以前のモデルよりも改善されていることがわかった。
自動階調と文法的誤り訂正において、よく知られたベンチマークで進捗が確認されたタスクについては、初期の調査では、彼ら自身の大きな言語モデルが最先端の結果を改善していないことが示されている。
論文 参考訳(メタデータ) (2023-07-17T11:12:56Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。