論文の概要: Identifying and Categorizing Offensive Language in Social Media
- arxiv url: http://arxiv.org/abs/2104.04871v1
- Date: Sat, 10 Apr 2021 22:53:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 06:54:41.642844
- Title: Identifying and Categorizing Offensive Language in Social Media
- Title(参考訳): ソーシャルメディアにおける攻撃的言語識別と分類
- Authors: Nikhil Oswal
- Abstract要約: 本研究は,SemEval 2019 Task 6: OffensEval用に構築された分類システムについて述べる。
私たちは、最良の結果を得るために、機械学習とディープラーニングモデルとデータ前処理とサンプリングテクニックをトレーニングしました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Offensive language is pervasive in social media. Individuals frequently take
advantage of the perceived anonymity of computer-mediated communication, using
this to engage in behavior that many of them would not consider in real life.
The automatic identification of offensive content online is an important task
that has gained more attention in recent years. This task can be modeled as a
supervised classification problem in which systems are trained using a dataset
containing posts that are annotated with respect to the presence of some
form(s) of abusive or offensive content. The objective of this study is to
provide a description of a classification system built for SemEval-2019 Task 6:
OffensEval. This system classifies a tweet as either offensive or not offensive
(Sub-task A) and further classifies offensive tweets into categories (Sub-tasks
B \& C). We trained machine learning and deep learning models along with data
preprocessing and sampling techniques to come up with the best results. Models
discussed include Naive Bayes, SVM, Logistic Regression, Random Forest and
LSTM.
- Abstract(参考訳): 攻撃的な言葉はソーシャルメディアに広まります。
個人はコンピュータによるコミュニケーションの匿名性をよく利用し、実際の生活において多くの人が考慮しない行動にそれを利用する。
オンライン上での攻撃的コンテンツの自動識別は近年注目を集めている重要な課題である。
このタスクは、攻撃的または攻撃的コンテンツの何らかの形態の存在に関してアノテートされたポストを含むデータセットを使用してシステムが訓練される教師付き分類問題としてモデル化することができる。
本研究の目的は,SemEval-2019 Task 6: OffensEval用に構築された分類システムを記述することである。
このシステムは、ツイートを攻撃的または攻撃的でないもの(サブタスクA)に分類し、さらに攻撃的ツイートをカテゴリ(サブタスクB \&C)に分類する。
私たちは、最良の結果を得るために、機械学習とディープラーニングモデルとデータ前処理とサンプリングテクニックをトレーニングしました。
議論されているモデルには、Naive Bayes、SVM、Logistic Regression、Random Forest、LSTMなどがある。
関連論文リスト
- THOS: A Benchmark Dataset for Targeted Hate and Offensive Speech [2.7061497863588126]
THOSは、メッセージのターゲットに関する細かいアノテーションを手動でラベル付けした8.3kのツイートのデータセットである。
このデータセットは,大規模言語モデルに基づく分類器を訓練し,この粒度レベルでの分類を可能にすることを実証する。
論文 参考訳(メタデータ) (2023-11-11T00:30:31Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - Sexism Identification in Tweets and Gabs using Deep Neural Networks [6.531659195805749]
本稿では,さまざまなディープニューラルネットワークモデルアーキテクチャを用いて,テキストにおける性差別の分類について検討する。
IberLEF 2021 の Social neTworks (EXIST) タスクにおける sexism Identification から、つぶやきとギャブのデータセットに二項性差別の分類を行う。
これらのモデルは、BERTとマルチフィルタCNNモデルを使用した最高のパフォーマンスで、競合のモデルと比較すると、比較的パフォーマンスがよい。
論文 参考訳(メタデータ) (2021-11-05T16:57:08Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - DeL-haTE: A Deep Learning Tunable Ensemble for Hate Speech Detection [0.04297070083645048]
ソーシャルメディア上でのヘイトスピーチは、近年急速に増加している問題となっている。
ヘイトフルコンテンツの自動検出と分類における3つの重要な課題は、明確にラベル付けされたデータの欠如、語彙や語彙の進化、Gabのようなフロンティアのベースラインモデル欠如である。
本稿では,3つの主要なコントリビューションを持つ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-03T17:32:50Z) - WOLI at SemEval-2020 Task 12: Arabic Offensive Language Identification
on Different Twitter Datasets [0.0]
ソーシャルメディア上で攻撃的言語と戦うための鍵は、自動攻撃的言語検出システムの存在である。
本稿では,Macro-F1 86.9%の52人中10位にランクインした共有タスクに対して,WideBot AI Labが提出したシステムについて述べる。
また、CNN、ハイウェイネットワーク、Bi-LSTM、アテンション層を含むシステムの予測能力を向上するニューラルネットワークアプローチも導入しました。
論文 参考訳(メタデータ) (2020-09-11T14:10:03Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。