論文の概要: VocalTweets: Investigating Social Media Offensive Language Among Nigerian Musicians
- arxiv url: http://arxiv.org/abs/2411.06477v1
- Date: Sun, 10 Nov 2024 14:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:11:58.171437
- Title: VocalTweets: Investigating Social Media Offensive Language Among Nigerian Musicians
- Title(参考訳): VocalTweets:ナイジェリアの音楽家の間でソーシャルメディアの攻撃的な言葉を調査中
- Authors: Sunday Oluyele, Juwon Akingbade, Victor Akinode,
- Abstract要約: VocalTweetsは、ナイジェリアの著名なミュージシャン12人のツイートからなる、コードスイッチと多言語データセットである。
私たちはHuggingFaceのベースであるTwitter-RoBERTaを使ってモデルをトレーニングし、F1スコアは74.5。
- 参考スコア(独自算出の注目度): 0.14337588659482522
- License:
- Abstract: Musicians frequently use social media to express their opinions, but they often convey different messages in their music compared to their posts online. Some utilize these platforms to abuse their colleagues, while others use it to show support for political candidates or engage in activism, as seen during the #EndSars protest. There are extensive research done on offensive language detection on social media, the usage of offensive language by musicians has received limited attention. In this study, we introduce VocalTweets, a code-switched and multilingual dataset comprising tweets from 12 prominent Nigerian musicians, labeled with a binary classification method as Normal or Offensive. We trained a model using HuggingFace's base-Twitter-RoBERTa, achieving an F1 score of 74.5. Additionally, we conducted cross-corpus experiments with the OLID dataset to evaluate the generalizability of our dataset.
- Abstract(参考訳): ミュージシャンは自分の意見をソーシャルメディアで表現することが多いが、オンライン投稿と比較して、音楽の中で異なるメッセージを流すことが多い。
これらのプラットフォームを利用して同僚を虐待する者もいれば、#EndSarsの抗議運動で見られるように、政治候補者への支持を示す者や、アクティビズムに携わる者もいる。
ソーシャルメディア上では攻撃的言語検出に関する広範な研究が行われており、ミュージシャンによる攻撃的言語の使用は限定的な注目を集めている。
本研究では,12人の著名なナイジェリア人ミュージシャンのつぶやきをコード変更・多言語データセットであるVocalTweetsを紹介する。
私たちはHuggingFaceのベースであるTwitter-RoBERTaを使ってモデルをトレーニングし、F1スコアは74.5。
さらに、OLIDデータセットを用いたクロスコーパス実験を行い、データセットの一般化性を評価した。
関連論文リスト
- Silent Signals, Loud Impact: LLMs for Word-Sense Disambiguation of Coded Dog Whistles [47.61526125774749]
犬の笛は、特定の聴衆に二次的な意味を持ち、しばしば人種的・社会経済的差別のために武器化された符号化通信の一種である。
本稿では,Large Language Models (LLMs) を用いた標準音声からの犬笛の単語センスの曖昧化手法を提案する。
我々はこの手法を利用して、フォーマルで非公式なコミュニケーションに使用される犬の口笛の16,550個の高信頼符号化されたサンプルのデータセットを作成する。
論文 参考訳(メタデータ) (2024-06-10T23:09:19Z) - Analyzing Norm Violations in Live-Stream Chat [49.120561596550395]
本研究は,ライブストリーミングプラットフォーム上での会話における規範違反を検出することを目的とした,最初のNLP研究である。
ライブストリームチャットにおける標準違反カテゴリを定義し、Twitchから4,583のコメントを注釈付けします。
以上の結果から,適切なコンテキスト情報がモデレーション性能を35%向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-18T05:58:27Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - Emojis as Anchors to Detect Arabic Offensive Language and Hate Speech [6.1875341699258595]
攻撃的・憎悪的なツイートを大量に収集する汎用的な言語に依存しない手法を提案する。
絵文字に埋め込まれた言語外情報を利用して、多くの攻撃的なツイートを収集します。
論文 参考訳(メタデータ) (2022-01-18T03:56:57Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Detecting Abusive Albanian [5.092028049119383]
scShajは、さまざまなソーシャルメディアプラットフォーム上のユーザーテキストコンテンツから構築されたヘイトスピーチと攻撃的なスピーチのための注釈付きデータセットである。
データセットは3つの異なる分類モデルを用いてテストされ、最も良いものは攻撃言語を識別するためのF1スコア0.77を達成することである。
論文 参考訳(メタデータ) (2021-07-28T18:47:32Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z) - Intersectional Bias in Hate Speech and Abusive Language Datasets [0.3149883354098941]
アフリカ系アメリカ人のツイートの3.7倍は虐待的だと評価される傾向があった。
アフリカ系アメリカ人の男性ツイートは、ヘイトフルと評価される確率が最大で77%だった。
本研究はヘイトスピーチと虐待言語のデータセットにおける交差バイアスに関する最初の体系的な証拠を提供する。
論文 参考訳(メタデータ) (2020-05-12T16:58:48Z) - SOLID: A Large-Scale Semi-Supervised Dataset for Offensive Language
Identification [34.57343857418401]
近年,攻撃的言語識別のための分類法であるOLIDデータセットが提案されている。
本研究では、より原則的な方法でツイートを収集する拡張データセットであるSOLIDを提案する。
SOLIDとOLIDを併用すると、2つの異なるモデルに対するOLIDテストセットにおいて大きな性能向上が得られることを示す。
論文 参考訳(メタデータ) (2020-04-29T20:02:58Z) - Arabic Offensive Language on Twitter: Analysis and Experiments [9.879488163141813]
トピック,方言,ターゲットに偏らないデータセットを構築する方法を提案する。
我々は、下品さと憎しみのスピーチに特別なタグを付けた、これまでで最大のアラビア語データセットを作成します。
論文 参考訳(メタデータ) (2020-04-05T13:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。