論文の概要: Raiders of the Lost Kek: 3.5 Years of Augmented 4chan Posts from the
Politically Incorrect Board
- arxiv url: http://arxiv.org/abs/2001.07487v2
- Date: Wed, 1 Apr 2020 13:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 11:31:21.949919
- Title: Raiders of the Lost Kek: 3.5 Years of Augmented 4chan Posts from the
Politically Incorrect Board
- Title(参考訳): 政治的に間違っていた4chanポストの3.5年を振り返ってみた
- Authors: Antonis Papasavva, Savvas Zannettou, Emiliano De Cristofaro, Gianluca
Stringhini, Jeremy Blackburn
- Abstract要約: 本稿では,3.3M以上のスレッドと134.5Mのポストを持つデータセットを,画像掲示板フォーラム4chanから提示する。
私たちの知る限りでは、これは公開可能な4chanデータセットとしては最大である。
このデータセットがソーシャルメディアのクロスプラットフォーム研究に使われ、自然言語処理などの他の研究にも役立つことを願っている。
- 参考スコア(独自算出の注目度): 12.14455026524814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a dataset with over 3.3M threads and 134.5M posts from
the Politically Incorrect board (/pol/) of the imageboard forum 4chan, posted
over a period of almost 3.5 years (June 2016-November 2019). To the best of our
knowledge, this represents the largest publicly available 4chan dataset,
providing the community with an archive of posts that have been permanently
deleted from 4chan and are otherwise inaccessible. We augment the data with a
set of additional labels, including toxicity scores and the named entities
mentioned in each post. We also present a statistical analysis of the dataset,
providing an overview of what researchers interested in using it can expect, as
well as a simple content analysis, shedding light on the most prominent
discussion topics, the most popular entities mentioned, and the toxicity level
of each post. Overall, we are confident that our work will motivate and assist
researchers in studying and understanding 4chan, as well as its role on the
greater Web. For instance, we hope this dataset may be used for cross-platform
studies of social media, as well as being useful for other types of research
like natural language processing. Finally, our dataset can assist qualitative
work focusing on in-depth case studies of specific narratives, events, or
social theories.
- Abstract(参考訳): 本稿では,約3.5年間(2016年6月~2019年11月)に投稿された,イメージボードフォーラム4chanの政治的不正確なボード(/pol/)からの3.3m以上のスレッドと134.5mの投稿からなるデータセットを提案する。
私たちの知る限り、これは公開可能な4chanデータセットとしては最大であり、コミュニティに4chanから永久に削除されたポストのアーカイブを提供する。
我々は、有害度スコアや各投稿に記載された名前付きエンティティを含む一連の追加ラベルでデータを増強する。
また、データセットの統計分析を行い、その利用に興味のある研究者が期待できる内容の概要と、最も著名な議論トピック、言及されている最も人気のあるエンティティ、各投稿の毒性レベルについて解説する。
全体としては、私たちの研究が4chanの研究と理解、そしてより大きなwebにおけるその役割を動機づけ、支援してくれると確信しています。
例えば、このデータセットがソーシャルメディアのクロスプラットフォーム研究に使われ、自然言語処理のような他のタイプの研究に有用であることを期待しています。
最後に、我々のデータセットは、特定の物語、出来事、社会理論の詳細なケーススタディに焦点を当てた定性的な作業を支援することができる。
関連論文リスト
- iDRAMA-Scored-2024: A Dataset of the Scored Social Media Platform from 2020 to 2023 [22.685953309889825]
Redditの代替プラットフォームであるScoredから大規模なデータセットをリリースしています。
少なくとも58のコミュニティがRedditから移住し、プラットフォームが誕生して以来950以上のコミュニティが誕生した。
私たちは、最先端のモデルによって生成されたデータセットに、すべてのポストの文埋め込みを提供します。
論文 参考訳(メタデータ) (2024-05-16T16:34:03Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Wiki-based Communities of Interest: Demographics and Outliers [18.953455338226103]
Wikiの情報源によると、このデータはホワイトハウスコロナウイルスタスクフォースのメンバーなど7.5万のコミュニティをカバーしている。
主観的およびグループ中心のデータセットをフォーマットで、またブラウジングインターフェースとしてリリースします。
論文 参考訳(メタデータ) (2023-03-16T09:58:11Z) - DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally
Spreading Out Disinformation [72.18912216025029]
偽情報ミームの検出を支援するためにDisinfoMemeを提案する。
このデータセットには、COVID-19パンデミック、Black Lives Matter運動、ベジタリアン/ベジタリアンという3つのトピックをカバーするRedditのミームが含まれている。
論文 参考訳(メタデータ) (2022-05-25T09:54:59Z) - "I Can't Keep It Up." A Dataset from the Defunct Voat.co News Aggregator [0.0]
Voat.coは、2020年12月25日に閉鎖されたニュース集約サイトである。
本稿では、7.1Kサブバースで113Kユーザから230万以上の投稿と16.2Mコメントを投稿したデータセットを提案する。
論文 参考訳(メタデータ) (2022-01-15T23:25:53Z) - Reducing Target Group Bias in Hate Speech Detectors [56.94616390740415]
大規模な公開データセットでトレーニングされたテキスト分類モデルは、いくつかの保護されたグループで大幅に性能が低下する可能性がある。
本稿では,トークンレベルのヘイトセンスの曖昧さを実現し,トークンのヘイトセンスの表現を検知に利用することを提案する。
論文 参考訳(メタデータ) (2021-12-07T17:49:34Z) - News consumption and social media regulations policy [70.31753171707005]
我々は、ニュース消費とコンテンツ規制の間の相互作用を評価するために、反対のモデレーション手法であるTwitterとGabを強制した2つのソーシャルメディアを分析した。
以上の結果から,Twitterが追求するモデレーションの存在は,疑わしいコンテンツを著しく減少させることがわかった。
Gabに対する明確な規制の欠如は、ユーザが両方のタイプのコンテンツを扱う傾向を生じさせ、ディスカウント/エンドレスメントの振る舞いを考慮に入れた疑わしいコンテンツに対してわずかに好みを示す。
論文 参考訳(メタデータ) (2021-06-07T19:26:32Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Measuring and Characterizing Hate Speech on News Websites [13.289076063197466]
われわれは19ヶ月の間に412万件のニュース記事に投稿された1億125万件のコメントを分析した。
シャーロッツビルでの「統一右派」集会のような現実世界の分裂イベントに関するヘイトフルなコメント活動の統計学的に顕著な増加が見られる。
ヘイトフルコメントを惹きつける記事は、ヘイトフルコメントを惹きつけない記事に比べ、言語的特徴が異なることがわかった。
論文 参考訳(メタデータ) (2020-05-16T09:59:01Z) - Echo Chambers on Social Media: A comparative analysis [64.2256216637683]
本研究では,4つのソーシャルメディアプラットフォーム上で100万ユーザが生成した100万個のコンテンツに対して,エコーチャンバーの操作的定義を導入し,大規模な比較分析を行う。
議論の的になっているトピックについてユーザの傾きを推測し、異なる特徴を分析してインタラクションネットワークを再構築する。
我々は、Facebookのようなニュースフィードアルゴリズムを実装するプラットフォームが、エコーチャンバの出現を招きかねないという仮説を支持する。
論文 参考訳(メタデータ) (2020-04-20T20:00:27Z) - The Pushshift Reddit Dataset [1.5661920010658625]
Pushshiftはソーシャルメディアのデータ収集、分析、アーカイブプラットフォームで、2015年からRedditのデータを収集している。
PushshiftのRedditデータセットはリアルタイムで更新され、Redditの開始時の履歴データが含まれている。
論文 参考訳(メタデータ) (2020-01-23T10:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。