論文の概要: GS_DravidianLangTech@2025: Women Targeted Abusive Texts Detection on Social Media
- arxiv url: http://arxiv.org/abs/2504.02863v1
- Date: Tue, 01 Apr 2025 00:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:47:46.597145
- Title: GS_DravidianLangTech@2025: Women Targeted Abusive Texts Detection on Social Media
- Title(参考訳): GS_DravidianLangTech@2025: ソーシャルメディア上の乱用テキスト検出を狙った女性
- Authors: Girma Yohannis Bade, Zahra Ahani, Olga Kolesnikova, José Luis Oropeza, Grigori Sidorov,
- Abstract要約: 虐待的スピーチ(Abusive speech)とは、弱い個人やグループに対する憎悪を和らげたり、扇動したりすることを目的としたコミュニケーションのこと。
本稿では,ソーシャルメディアプラットフォーム上で女性をターゲットとした乱用テキストの検出に焦点をあてる。
- 参考スコア(独自算出の注目度): 4.573779790701493
- License:
- Abstract: The increasing misuse of social media has become a concern; however, technological solutions are being developed to moderate its content effectively. This paper focuses on detecting abusive texts targeting women on social media platforms. Abusive speech refers to communication intended to harm or incite hatred against vulnerable individuals or groups. Specifically, this study aims to identify abusive language directed toward women. To achieve this, we utilized logistic regression and BERT as base models to train datasets sourced from DravidianLangTech@2025 for Tamil and Malayalam languages. The models were evaluated on test datasets, resulting in a 0.729 macro F1 score for BERT and 0.6279 for logistic regression in Tamil and Malayalam, respectively.
- Abstract(参考訳): ソーシャルメディアの誤用の増加が懸念されているが、そのコンテンツを効果的に緩和する技術ソリューションが開発されている。
本稿では,ソーシャルメディアプラットフォーム上で女性をターゲットとした乱用テキストの検出に焦点をあてる。
虐待的スピーチ(Abusive speech)とは、弱い個人やグループに対する憎悪を和らげたり、扇動したりすることを目的としたコミュニケーションのこと。
具体的には,女性を対象とする虐待的言語を同定することを目的とする。
そこで我々は,ロジスティック回帰とBERTをベースモデルとして,タミル語とマラヤラム語のDravidianLangTech@2025から得られたデータセットをトレーニングした。
モデルは試験データセットで評価され、BERTでは0.729マクロF1スコア、タミル語では0.6279スコア、マラヤラムでは0.6279スコアとなった。
関連論文リスト
- Breaking the Silence Detecting and Mitigating Gendered Abuse in Hindi, Tamil, and Indian English Online Spaces [0.6543929004971272]
チームCNLP-NITS-PPは、CNNとBiLSTMネットワークを組み合わせたアンサンブルアプローチを開発した。
CNNは、組み込み入力テキストに適用される畳み込みフィルタを通じて、乱用言語を表す局所的な特徴をキャプチャする。
BiLSTMは、単語とフレーズ間の依存関係について、このシーケンスを解析する。
評価スコアはf1尺度、特に英語0.84に対して高い性能を示した。
論文 参考訳(メタデータ) (2024-04-02T14:55:47Z) - Exploratory Data Analysis on Code-mixed Misogynistic Comments [0.0]
我々は、ミックスコードHinglishでYouTubeコメントの新しいデータセットを提示する。
これらのコメントは「ミソジニスト」と「非ミソジニスト」とラベル付けされている。
論文 参考訳(メタデータ) (2024-03-09T23:21:17Z) - Analysis and Detection of Multilingual Hate Speech Using Transformer
Based Deep Learning [7.332311991395427]
ヘイトスピーチの普及に伴い,NLPタスクとしての自動検出の需要が高まっている。
本研究では、Twitter、Facebook、WhatsApp、Instagramなどのソーシャルメディアにおけるヘイトスピーチを検出するために、トランスフォーマーベースのモデルを提案する。
金の標準データセットは、著名な研究者Zeerak Talat、Sara Tonelli、Melanie Siegel、Rezaul Karimから収集された。
ヘイトスピーチ検出のための提案されたモデルの成功率は、ベンガルデータセットの精度の高い既存のベースラインや最先端モデルよりも高く、英語では89%、ドイツ語では91%である。
論文 参考訳(メタデータ) (2024-01-19T20:40:23Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Detection of Homophobia & Transphobia in Dravidian Languages: Exploring
Deep Learning Methods [1.5687561161428403]
ホモフォビアとトランスフォビアはLGBT+コミュニティに対する攻撃的なコメントを構成している。
本稿では,マラヤラムとタミル・ランゲージのソーシャルメディアコメントの分類に異なるディープラーニング・モジュールの適用性を検討する。
論文 参考訳(メタデータ) (2023-04-03T12:15:27Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Abusive and Threatening Language Detection in Urdu using Boosting based
and BERT based models: A Comparative Approach [0.0]
本稿では,その共有タスクに基づいて,ウルドゥー語におけるコンテンツ検出を悪用し,脅かすための機械学習モデルについて検討する。
私たちのモデルは、それぞれF1scoreof 0.88と0.54のコンテンツ検出を嫌がらせと脅かすために、最初に導入されました。
論文 参考訳(メタデータ) (2021-11-27T20:03:19Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。