論文の概要: Identifying Cyberbullying Roles in Social Media
- arxiv url: http://arxiv.org/abs/2412.16417v1
- Date: Sat, 21 Dec 2024 00:46:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:01:54.211907
- Title: Identifying Cyberbullying Roles in Social Media
- Title(参考訳): ソーシャルメディアにおけるサイバーバブルの役割の特定
- Authors: Manuel Sandoval, Mohammed Abuhamad, Patrick Furman, Mujtaba Nazari, Deborah L. Hall, Yasin N. Silva,
- Abstract要約: サイバーいじめ事件に関与している個人の役割を正確に検出し、この問題を大規模に効果的に解決することが重要である。
本研究では,サイバーバブルの相互作用に関わる役割を検出する機械学習モデルについて検討する。
- 参考スコア(独自算出の注目度): 3.5568310805420427
- License:
- Abstract: Social media has revolutionized communication, allowing people worldwide to connect and interact instantly. However, it has also led to increases in cyberbullying, which poses a significant threat to children and adolescents globally, affecting their mental health and well-being. It is critical to accurately detect the roles of individuals involved in cyberbullying incidents to effectively address the issue on a large scale. This study explores the use of machine learning models to detect the roles involved in cyberbullying interactions. After examining the AMiCA dataset and addressing class imbalance issues, we evaluate the performance of various models built with four underlying LLMs (i.e., BERT, RoBERTa, T5, and GPT-2) for role detection. Our analysis shows that oversampling techniques help improve model performance. The best model, a fine-tuned RoBERTa using oversampled data, achieved an overall F1 score of 83.5%, increasing to 89.3% after applying a prediction threshold. The top-2 F1 score without thresholding was 95.7%. Our method outperforms previously proposed models. After investigating the per-class model performance and confidence scores, we show that the models perform well in classes with more samples and less contextual confusion (e.g., Bystander Other), but struggle with classes with fewer samples (e.g., Bystander Assistant) and more contextual ambiguity (e.g., Harasser and Victim). This work highlights current strengths and limitations in the development of accurate models with limited data and complex scenarios.
- Abstract(参考訳): ソーシャルメディアはコミュニケーションに革命をもたらした。
しかし、これはまた、世界中の子供や青年に重大な脅威を与え、彼らのメンタルヘルスと幸福に影響を及ぼすサイバーいじめの増加につながっている。
サイバーいじめ事件に関与している個人の役割を正確に検出し、この問題を大規模に効果的に解決することが重要である。
本研究では,サイバーバブルの相互作用に関わる役割を検出する機械学習モデルについて検討する。
AMiCAデータセットを調べ、クラス不均衡問題に対処した後、4つのLCM(BERT、RoBERTa、T5、GPT-2)で構築された様々なモデルの性能を評価した。
分析の結果,オーバーサンプリング技術はモデルの性能向上に役立つことがわかった。
最も優れたモデルは、オーバーサンプリングデータを使用した微調整のRoBERTaで、全体的なF1スコアは83.5%に達し、予測しきい値を適用して89.3%まで上昇した。
閾値のないトップ2のF1スコアは95.7%だった。
提案手法は従来提案したモデルより優れている。
クラスごとのモデルパフォーマンスと信頼性スコアを調査した後、モデルがより多くのサンプルを持ち、コンテキストの混乱が少ないクラス(例えば、Bystander Assistant)ではうまく動作するが、より少ないサンプル(例えば、Bystander Assistant)とよりコンテキストのあいまいなクラス(例えば、HarasserとVictim)では苦労していることを示す。
この研究は、限られたデータと複雑なシナリオを持つ正確なモデルの開発における現在の強みと限界を強調します。
関連論文リスト
- Analyzing and Mitigating Bias for Vulnerable Classes: Towards Balanced Representation in Dataset [2.143460356353513]
本研究は、脆弱な道路利用者間のクラス不均衡を調査することに焦点を当てる。
一般的なCNNモデルとビジョントランスフォーマー(ViT)をnuScenesデータセットで利用しています。
提案手法を用いて、CNNモデルのIoU(%)とNDS(%)のメトリクスを71.3から75.6、80.6から83.7に改善する。
論文 参考訳(メタデータ) (2024-01-18T22:10:46Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - NLP-LTU at SemEval-2023 Task 10: The Impact of Data Augmentation and
Semi-Supervised Learning Techniques on Text Classification Performance on an
Imbalanced Dataset [1.3445335428144554]
本稿では、ソーシャルメディア投稿におけるオンライン性差別の検出と分類に焦点を当てたSemEval23のタスク10の方法論を提案する。
この課題に対する我々の解決策は、細調整されたトランスフォーマーベースモデルのアンサンブルに基づいている。
論文 参考訳(メタデータ) (2023-04-25T14:19:46Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Resilience from Diversity: Population-based approach to harden models
against adversarial attacks [0.0]
この研究は、敵の攻撃に対して回復力のあるモデルを導入する。
我々のモデルは、生物科学から確立された原則を生かし、人口多様性は環境変化に対して弾力性を生み出す。
Counter-Linked Model (CLM) は、周期的ランダム類似性検査を行う同じアーキテクチャのサブモデルで構成されている。
論文 参考訳(メタデータ) (2021-11-19T15:22:21Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - Automated Detection of Cyberbullying Against Women and Immigrants and
Cross-domain Adaptability [2.294014185517203]
本稿では,最先端のNLP技術を用いた技術の進歩に焦点を当てる。
SemEval 2019 - Task 5(HatEval)のTwitterデータセットを、女性や移民に対するヘイトスピーチに使用しています。
ヘイトスピーチの分類におけるF1スコアの0.73と0.74を達成した。
論文 参考訳(メタデータ) (2020-12-04T13:12:31Z) - To be Robust or to be Fair: Towards Fairness in Adversarial Training [83.42241071662897]
逆行訓練アルゴリズムは、異なるデータ群間の精度と堅牢性に深刻な違いをもたらす傾向がある。
本稿では、敵防衛を行う際の不公平問題を軽減するためのFair-Robust-Learning(FRL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T02:21:54Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。