論文の概要: Trawling for Trolling: A Dataset
- arxiv url: http://arxiv.org/abs/2008.00525v1
- Date: Sun, 2 Aug 2020 17:23:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-07 08:37:40.545267
- Title: Trawling for Trolling: A Dataset
- Title(参考訳): トロールのためのトロール:データセット
- Authors: Hitkul, Karmanya Aggarwal, Pakhi Bamdev, Debanjan Mahata, Rajiv Ratn
Shah and Ponnurangam Kumaraguru
- Abstract要約: 攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
- 参考スコア(独自算出の注目度): 56.1778095945542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to accurately detect and filter offensive content automatically
is important to ensure a rich and diverse digital discourse. Trolling is a type
of hurtful or offensive content that is prevalent in social media, but is
underrepresented in datasets for offensive content detection. In this work, we
present a dataset that models trolling as a subcategory of offensive content.
The dataset was created by collecting samples from well-known datasets and
reannotating them along precise definitions of different categories of
offensive content. The dataset has 12,490 samples, split across 5 classes;
Normal, Profanity, Trolling, Derogatory and Hate Speech. It encompasses content
from Twitter, Reddit and Wikipedia Talk Pages. Models trained on our dataset
show appreciable performance without any significant hyperparameter tuning and
can potentially learn meaningful linguistic information effectively. We find
that these models are sensitive to data ablation which suggests that the
dataset is largely devoid of spurious statistical artefacts that could
otherwise distract and confuse classification models.
- Abstract(参考訳): 攻撃的コンテンツを自動的に検出し、フィルタリングする能力は、リッチで多様なデジタル会話を確実にするために重要である。
トロール(英: trolling)は、ソーシャルメディアで広く使われている、有害または不快なコンテンツの一種であるが、攻撃的コンテンツ検出のためのデータセットでは過小評価されている。
本稿では,攻撃的コンテンツのサブカテゴリとしてトロールをモデル化するデータセットを提案する。
データセットは、よく知られたデータセットからサンプルを収集し、攻撃的コンテンツのさまざまなカテゴリの正確な定義に沿って再注釈することで作成された。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
Twitter、Reddit、Wikipedia Talk Pagesのコンテンツを含む。
データセットでトレーニングされたモデルは、重要なハイパーパラメータチューニングを伴わずに良好なパフォーマンスを示し、意味のある言語情報を効果的に学習することができる。
これらのモデルはデータアブレーションに敏感であり、データセットには散発的な統計的アーティファクトがほとんどなく、それ以外は分類モデルを混乱させ混乱させる可能性があることを示唆している。
関連論文リスト
- Hate Speech Detection Using Cross-Platform Social Media Data In English and German Language [6.200058263544999]
本研究は,YouTubeコメントにおけるバイリンガルヘイトスピーチの検出に焦点を当てた。
コンテントの類似性、定義の類似性、一般的なヘイトワードなど、データセットがパフォーマンスに与える影響を測定する要素が含まれています。
最高のパフォーマンスは、YouTubeコメント、Twitter、Gabのデータセットと、英語とドイツ語のYouTubeコメントのためのF1スコアの0.74と0.68を組み合わせることで得られる。
論文 参考訳(メタデータ) (2024-10-02T10:22:53Z) - Sexism Detection on a Data Diet [14.899608305188002]
モデルのトレーニング中に、インフルエンススコアを利用してデータポイントの重要性を推定する方法を示します。
ドメイン外の3つのデータセット上で異なるプルーニング戦略を用いて、データプルーニングに基づいてトレーニングされたモデル性能を評価する。
論文 参考訳(メタデータ) (2024-06-07T12:39:54Z) - THOS: A Benchmark Dataset for Targeted Hate and Offensive Speech [2.7061497863588126]
THOSは、メッセージのターゲットに関する細かいアノテーションを手動でラベル付けした8.3kのツイートのデータセットである。
このデータセットは,大規模言語モデルに基づく分類器を訓練し,この粒度レベルでの分類を可能にすることを実証する。
論文 参考訳(メタデータ) (2023-11-11T00:30:31Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - Ruddit: Norms of Offensiveness for English Reddit Comments [35.83156813452207]
英語のRedditコメントの最初のデータセットを作成します。
本手法は信頼性の高い攻撃性スコアを生成する。
我々は、この新たなデータセット上での攻撃性スコアを予測するために、広く使われているニューラルネットワークの能力を評価する。
論文 参考訳(メタデータ) (2021-06-10T11:27:47Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - Hidden Footprints: Learning Contextual Walkability from 3D Human Trails [70.01257397390361]
現在のデータセットは、人々がどこにいるか、どこにいるかを教えてくれません。
まず、画像間で人の観察を伝播させ、3D情報を利用して、私たちが「隠れ足跡」と呼ぶものを作成することで、有効なラベル付き歩行可能領域の集合を拡大する。
このようなスパースラベルのために設計されたトレーニング戦略を考案し、クラスバランスの分類損失と文脈逆転損失を組み合わせた。
論文 参考訳(メタデータ) (2020-08-19T23:19:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。