論文の概要: Cyberbullying Detection for Low-resource Languages and Dialects: Review
of the State of the Art
- arxiv url: http://arxiv.org/abs/2308.15745v1
- Date: Wed, 30 Aug 2023 03:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 14:54:28.289268
- Title: Cyberbullying Detection for Low-resource Languages and Dialects: Review
of the State of the Art
- Title(参考訳): 低リソース言語と方言のサイバーバブル検出:技術の現状を振り返って
- Authors: Tanjim Mahmud, Michal Ptaszynski, Juuso Eronen and Fumito Masui
- Abstract要約: この論文では、バングラ語、ヒンディー語、ドラヴィダ語など、23の低資源言語と方言がカバーされている。
本調査では,サイバーいじめの信頼性定義の欠如を含む,過去の研究における研究ギャップのいくつかを明らかにした。
これらの提案に基づき,バングラのチタゴニア方言におけるサイバーいじめデータセットを収集,公開する。
- 参考スコア(独自算出の注目度): 0.9831489366502298
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The struggle of social media platforms to moderate content in a timely
manner, encourages users to abuse such platforms to spread vulgar or abusive
language, which, when performed repeatedly becomes cyberbullying a social
problem taking place in virtual environments, yet with real-world consequences,
such as depression, withdrawal, or even suicide attempts of its victims.
Systems for the automatic detection and mitigation of cyberbullying have been
developed but, unfortunately, the vast majority of them are for the English
language, with only a handful available for low-resource languages. To estimate
the present state of research and recognize the needs for further development,
in this paper we present a comprehensive systematic survey of studies done so
far for automatic cyberbullying detection in low-resource languages. We
analyzed all studies on this topic that were available. We investigated more
than seventy published studies on automatic detection of cyberbullying or
related language in low-resource languages and dialects that were published
between around 2017 and January 2023. There are 23 low-resource languages and
dialects covered by this paper, including Bangla, Hindi, Dravidian languages
and others. In the survey, we identify some of the research gaps of previous
studies, which include the lack of reliable definitions of cyberbullying and
its relevant subcategories, biases in the acquisition, and annotation of data.
Based on recognizing those research gaps, we provide some suggestions for
improving the general research conduct in cyberbullying detection, with a
primary focus on low-resource languages. Based on those proposed suggestions,
we collect and release a cyberbullying dataset in the Chittagonian dialect of
Bangla and propose a number of initial ML solutions trained on that dataset. In
addition, pre-trained transformer-based the BanglaBERT model was also
attempted.
- Abstract(参考訳): ソーシャルメディアプラットフォームがタイムリーにコンテンツを穏健化するために苦労しているため、利用者はそのようなプラットフォームを乱用して下品や虐待言語を広めることを奨励し、繰り返し行われると、仮想環境で発生した社会問題をサイバーいじめするが、うつ病、退避、さらには被害者の自殺未遂といった現実的な結果に繋がる。
サイバーいじめの自動検出と軽減のためのシステムは開発されてきたが、残念ながらその大部分は英語用であり、低リソース言語でしか利用できない。
本稿では,研究の現状を推定し,さらなる開発の必要性を認識するために,低リソース言語における自動サイバーバブル検出のための総合的な体系的な調査を行った。
我々は、このトピックに関するすべての研究を分析しました。
2017年頃から2023年1月までに刊行された低リソース言語および方言におけるサイバーいじめまたは関連言語の自動検出に関する70以上の研究について調査を行った。
バングラ語、ヒンディー語、ドラビダ語など23の低資源言語と方言が本論文でカバーされている。
本調査では,サイバーいじめと関連するサブカテゴリの信頼性定義の欠如,買収のバイアス,データのアノテーションなど,過去の研究における研究ギャップを明らかにした。
これらの研究ギャップの認識に基づいて,低リソース言語を中心に,サイバーバブル検出における一般的な研究行動を改善するための提案を行う。
これらの提案に基づいて,バングラのキタゴニア方言におけるサイバーいじめデータセットの収集と公開を行い,そのデータセットでトレーニングされた多数の初期mlソリューションを提案する。
さらに、BanglaBERTモデルに基づく事前訓練も試みられた。
関連論文リスト
- The Use of a Large Language Model for Cyberbullying Detection [0.0]
サイバーいじめ(CB)は、今日のサイバー世界で最も多い現象である。
これは市民の精神的および身体的健康に対する深刻な脅威である。
これにより、オンラインフォーラム、ブログ、ソーシャルメディアプラットフォームからいじめコンテンツを防ぐ堅牢なシステムを開発する必要が生じる。
論文 参考訳(メタデータ) (2024-02-06T15:46:31Z) - Explain Thyself Bully: Sentiment Aided Cyberbullying Detection with
Explanation [52.3781496277104]
さまざまなソーシャルメディアネットワークやオンラインコミュニケーションアプリの人気により、サイバーいじめが大きな問題になっている。
一般データ保護規則の「説明の権利」のような近年の法律は、解釈可能なモデルの開発に拍車をかけた。
我々は,コード混在言語からの自動サイバーバブル検出のための,mExCBと呼ばれる最初の解釈可能なマルチタスクモデルを開発した。
論文 参考訳(メタデータ) (2024-01-17T07:36:22Z) - Detection of Offensive and Threatening Online Content in a Low Resource
Language [0.0]
ハウサ語は主要なチャド語であり、アフリカで1億人以上の人々が話している。
オンラインプラットフォームは、しばしば、攻撃的および脅迫的な言語の使用につながる社会的相互作用を促進する。
論文 参考訳(メタデータ) (2023-11-17T14:08:44Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Fine-Tuning Llama 2 Large Language Models for Detecting Online Sexual
Predatory Chats and Abusive Texts [2.406214748890827]
本稿では,Llama 2 7B-パラメーターモデルを用いて,オンライン性的捕食チャットと虐待言語の検出手法を提案する。
我々は、異なる大きさ、不均衡度、言語(英語、ローマ・ウルドゥー語、ウルドゥー語)のデータセットを用いてLLMを微調整する。
実験結果から,提案手法は3つの異なるデータセットに対して精度よく一貫した性能を示す。
論文 参考訳(メタデータ) (2023-08-28T16:18:50Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Initial Study into Application of Feature Density and
Linguistically-backed Embedding to Improve Machine Learning-based
Cyberbullying Detection [54.83707803301847]
この研究は、自動サイバーバブル検出に関するKaggleコンペティションで提供されたFormspringデータセットで実施された。
本研究は,サイバブリング検出におけるニューラルネットワークの有効性と分類器性能と特徴密度の相関性を確認した。
論文 参考訳(メタデータ) (2022-06-04T03:17:15Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Abusive and Threatening Language Detection in Urdu using Boosting based
and BERT based models: A Comparative Approach [0.0]
本稿では,その共有タスクに基づいて,ウルドゥー語におけるコンテンツ検出を悪用し,脅かすための機械学習モデルについて検討する。
私たちのモデルは、それぞれF1scoreof 0.88と0.54のコンテンツ検出を嫌がらせと脅かすために、最初に導入されました。
論文 参考訳(メタデータ) (2021-11-27T20:03:19Z) - Cyberbullying Detection Using Deep Neural Network from Social Media
Comments in Bangla Language [0.0]
我々は,ベンガル語におけるいじめ表現検出のためのハイブリッドニューラルネットワークを用いた二分分類モデルと多クラス分類モデルを提案する。
我々は、人気のある公開Facebookページからの44,001人のユーザーコメントを使用しており、これは、Non-bully、Sexual、Threat、Troll、Religiousの5つのクラスに分類される。
私たちのバイナリ分類モデルでは,87.91%の精度が得られていますが,マルチクラス分類のためのニューラルネットワーク後のアンサンブル手法を導入すれば,85%の精度が得られます。
論文 参考訳(メタデータ) (2021-06-08T16:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。