論文の概要: Ruddit: Norms of Offensiveness for English Reddit Comments
- arxiv url: http://arxiv.org/abs/2106.05664v1
- Date: Thu, 10 Jun 2021 11:27:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:39:51.740525
- Title: Ruddit: Norms of Offensiveness for English Reddit Comments
- Title(参考訳): ラディット:英語のRedditコメントに対する攻撃のノーム
- Authors: Rishav Hada, Sohi Sudhir, Pushkar Mishra, Helen Yannakoudakis, Saif M.
Mohammad, Ekaterina Shutova
- Abstract要約: 英語のRedditコメントの最初のデータセットを作成します。
本手法は信頼性の高い攻撃性スコアを生成する。
我々はまた、この新たなデータセットで攻撃性スコアを予測するために広く使われているニューラルネットワークの能力を評価する。
- 参考スコア(独自算出の注目度): 35.83156813452207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On social media platforms, hateful and offensive language negatively impact
the mental well-being of users and the participation of people from diverse
backgrounds. Automatic methods to detect offensive language have largely relied
on datasets with categorical labels. However, comments can vary in their degree
of offensiveness. We create the first dataset of English language Reddit
comments that has \textit{fine-grained, real-valued scores} between -1
(maximally supportive) and 1 (maximally offensive). The dataset was annotated
using \emph{Best--Worst Scaling}, a form of comparative annotation that has
been shown to alleviate known biases of using rating scales. We show that the
method produces highly reliable offensiveness scores. Finally, we evaluate the
ability of widely-used neural models to predict offensiveness scores on this
new dataset.
- Abstract(参考訳): ソーシャルメディアプラットフォームでは、憎悪と攻撃的な言葉がユーザーの精神的幸福と多様な背景を持つ人々の参加に悪影響を及ぼす。
攻撃的言語を検出する自動手法は、分類ラベルを持つデータセットに大きく依存している。
しかし、コメントは攻撃の程度によって異なる。
私たちは、 -1(最大支持)と1(最大攻撃的)の間に \textit{fine-fine, real-valued scores} を持つ、英語のRedditコメントの最初のデータセットを作成します。
データセットは、評価尺度の使用の既知のバイアスを軽減するための比較アノテーションの形式である \emph{best--worst scaling} を使用してアノテートされた。
本手法は信頼性の高い攻撃性スコアを生成する。
最後に,この新しいデータセットにおける攻撃性スコアを予測するために,広く使用されているニューラルモデルの能力を評価する。
関連論文リスト
- OffensiveLang: A Community Based Implicit Offensive Language Dataset [5.813922783967869]
ヘイトスピーチや攻撃的な言語は、明示的な形と暗黙的な形の両方に存在する。
OffensiveLangはコミュニティベースの暗黙的な攻撃的な言語データセットである。
本稿では、暗黙の攻撃的言語を効果的に生成するプロンプトベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-04T20:34:58Z) - The Impact of Debiasing on the Performance of Language Models in
Downstream Tasks is Underestimated [70.23064111640132]
我々は、幅広いベンチマークデータセットを用いて、複数の下流タスクのパフォーマンスに対するデバイアスの影響を比較した。
実験により、デバイアスの効果は全てのタスクにおいて一貫して見積もられていることが示されている。
論文 参考訳(メタデータ) (2023-09-16T20:25:34Z) - Just Rank: Rethinking Evaluation with Word and Sentence Similarities [105.5541653811528]
埋め込みの本質的な評価は かなり遅れています そして過去10年間 重要な更新は行われていません
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T08:40:05Z) - Detecting Offensive Language on Social Networks: An End-to-end Detection
Method based on Graph Attention Networks [7.723697303436006]
攻撃的言語検出(CT-OLD)のためのコミュニティ構造とテキスト特徴に基づくエンドツーエンド手法を提案する。
ユーザの特徴を表現するために,コミュニティ構造にユーザ意見を追加する。ユーザ意見は,ユーザ履歴行動情報によって表現され,テキスト情報によって表現されるものよりも優れる。
論文 参考訳(メタデータ) (2022-03-04T03:57:18Z) - Detecting Abusive Albanian [5.092028049119383]
scShajは、さまざまなソーシャルメディアプラットフォーム上のユーザーテキストコンテンツから構築されたヘイトスピーチと攻撃的なスピーチのための注釈付きデータセットである。
データセットは3つの異なる分類モデルを用いてテストされ、最も良いものは攻撃言語を識別するためのF1スコア0.77を達成することである。
論文 参考訳(メタデータ) (2021-07-28T18:47:32Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Arabic Offensive Language on Twitter: Analysis and Experiments [9.879488163141813]
トピック,方言,ターゲットに偏らないデータセットを構築する方法を提案する。
我々は、下品さと憎しみのスピーチに特別なタグを付けた、これまでで最大のアラビア語データセットを作成します。
論文 参考訳(メタデータ) (2020-04-05T13:05:11Z) - Offensive Language Detection: A Comparative Analysis [2.5739449801033842]
本稿では,Google文エンコーダ,Fasttext,動的モード分解(DMD)に基づく機能とRandom kitchen sink(RKS)法による攻撃言語検出の有効性について検討する。
実験と評価の結果,Fastetxt を用いた RKS が競合する結果を得た。
論文 参考訳(メタデータ) (2020-01-09T17:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。