論文の概要: Arabic Offensive Language on Twitter: Analysis and Experiments
- arxiv url: http://arxiv.org/abs/2004.02192v3
- Date: Tue, 9 Mar 2021 20:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 12:43:26.406641
- Title: Arabic Offensive Language on Twitter: Analysis and Experiments
- Title(参考訳): Twitter上のアラビア語攻撃言語:分析と実験
- Authors: Hamdy Mubarak, Ammar Rashed, Kareem Darwish, Younes Samih, Ahmed
Abdelali
- Abstract要約: トピック,方言,ターゲットに偏らないデータセットを構築する方法を提案する。
我々は、下品さと憎しみのスピーチに特別なタグを付けた、これまでで最大のアラビア語データセットを作成します。
- 参考スコア(独自算出の注目度): 9.879488163141813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting offensive language on Twitter has many applications ranging from
detecting/predicting bullying to measuring polarization. In this paper, we
focus on building a large Arabic offensive tweet dataset. We introduce a method
for building a dataset that is not biased by topic, dialect, or target. We
produce the largest Arabic dataset to date with special tags for vulgarity and
hate speech. We thoroughly analyze the dataset to determine which topics,
dialects, and gender are most associated with offensive tweets and how Arabic
speakers use offensive language. Lastly, we conduct many experiments to produce
strong results (F1 = 83.2) on the dataset using SOTA techniques.
- Abstract(参考訳): twitter上の攻撃的言語の検出には、いじめの検出や予測から偏光の測定まで、多くのアプリケーションがある。
本稿では,アラビア語の攻撃的ツイートデータセットの構築に焦点をあてる。
本稿では,話題や方言,対象に偏らないデータセットを構築する手法を提案する。
これまでで最大のアラビア語データセットを、下品さと憎しみのスピーチのための特別なタグで作成しました。
我々は、データセットを徹底的に分析し、どのトピック、方言、性別が最も攻撃的ツイートに関連しているか、アラビア語話者がどのように攻撃的言語を使用しているかを決定する。
最後に、SOTA技術を用いてデータセット上で強い結果(F1 = 83.2)を生成するために多くの実験を行う。
関連論文リスト
- A multilingual dataset for offensive language and hate speech detection for hausa, yoruba and igbo languages [0.0]
本研究では,ナイジェリアの3大言語であるHausa,Yoruba,Igboにおいて,攻撃的言語検出のための新しいデータセットの開発と導入の課題に対処する。
私たちはTwitterからデータを収集し、それを手動でアノテートして、ネイティブスピーカーを使用して、3つの言語毎にデータセットを作成しました。
学習済み言語モデルを用いて、データセット中の攻撃的言語の検出の有効性を評価し、最高の性能モデルが90%の精度で達成した。
論文 参考訳(メタデータ) (2024-06-04T09:58:29Z) - How to Solve Few-Shot Abusive Content Detection Using the Data We Actually Have [58.23138483086277]
この作業では、すでに持っているデータセットを活用し、虐待的な言語検出に関連する幅広いタスクをカバーしています。
私たちのゴールは、ターゲットドメインのトレーニング例を少しだけ使用して、新しいターゲットラベルセットや/または言語のために、安価にモデルを構築することです。
実験の結果、すでに存在するデータセットと、対象タスクのほんの数ショットしか使用していないモデルの性能が、モノリンガル言語と言語間で改善されていることがわかった。
論文 参考訳(メタデータ) (2023-05-23T14:04:12Z) - KOLD: Korean Offensive Language Dataset [11.699797031874233]
韓国の攻撃言語データセット(KOLD)と40kのコメントに,攻撃性,目標,対象とするグループ情報をラベル付けしたコメントを提示する。
タイトル情報は文脈として役立ち、特にコメントで省略された場合、憎悪の対象を識別するのに役立ちます。
論文 参考訳(メタデータ) (2022-05-23T13:58:45Z) - NaijaSenti: A Nigerian Twitter Sentiment Corpus for Multilingual
Sentiment Analysis [5.048355865260207]
ナイジェリアでもっとも広く話されている4言語に対して、人手によるTwitter感情データセットを初めて導入する。
データセットは1言語あたり約30,000の注釈付きツイートで構成されている。
私たちは、データセット、訓練されたモデル、感情レキシコン、コードをリリースし、表現不足言語における感情分析の研究にインセンティブを与えます。
論文 参考訳(メタデータ) (2022-01-20T16:28:06Z) - Emojis as Anchors to Detect Arabic Offensive Language and Hate Speech [6.1875341699258595]
攻撃的・憎悪的なツイートを大量に収集する汎用的な言語に依存しない手法を提案する。
絵文字に埋め込まれた言語外情報を利用して、多くの攻撃的なツイートを収集します。
論文 参考訳(メタデータ) (2022-01-18T03:56:57Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Automatic Expansion and Retargeting of Arabic Offensive Language
Training [12.111859709582617]
当社は2つの重要な洞察を取り入れている。つまり、Twitter上のリプライがしばしば反対を示唆し、一部のアカウントは特定のターゲットに対して攻撃的であることに固執している。
本手法はアラビア語のツイートに対して13%と79%の相対的なF1尺度が有効であることを示す。
論文 参考訳(メタデータ) (2021-11-18T08:25:09Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Improving Sentiment Analysis over non-English Tweets using Multilingual
Transformers and Automatic Translation for Data-Augmentation [77.69102711230248]
我々は、英語のつぶやきを事前学習し、自動翻訳を用いてデータ拡張を適用して非英語の言語に適応する多言語トランスフォーマーモデルを提案する。
我々のフランス語、スペイン語、ドイツ語、イタリア語での実験は、この手法が非英語のツイートの小さなコーパスよりも、トランスフォーマーの結果を改善する効果的な方法であることを示唆している。
論文 参考訳(メタデータ) (2020-10-07T15:44:55Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。