論文の概要: iDRAMA-Scored-2024: A Dataset of the Scored Social Media Platform from 2020 to 2023
- arxiv url: http://arxiv.org/abs/2405.10233v1
- Date: Thu, 16 May 2024 16:34:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 13:43:00.180100
- Title: iDRAMA-Scored-2024: A Dataset of the Scored Social Media Platform from 2020 to 2023
- Title(参考訳): iDRAMA-Scored-2024:2020年から2023年までのScored Social Media Platformのデータセット
- Authors: Jay Patel, Pujan Paudel, Emiliano De Cristofaro, Gianluca Stringhini, Jeremy Blackburn,
- Abstract要約: Redditの代替プラットフォームであるScoredから大規模なデータセットをリリースしています。
少なくとも58のコミュニティがRedditから移住し、プラットフォームが誕生して以来950以上のコミュニティが誕生した。
私たちは、最先端のモデルによって生成されたデータセットに、すべてのポストの文埋め込みを提供します。
- 参考スコア(独自算出の注目度): 22.685953309889825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online web communities often face bans for violating platform policies, encouraging their migration to alternative platforms. This migration, however, can result in increased toxicity and unforeseen consequences on the new platform. In recent years, researchers have collected data from many alternative platforms, indicating coordinated efforts leading to offline events, conspiracy movements, hate speech propagation, and harassment. Thus, it becomes crucial to characterize and understand these alternative platforms. To advance research in this direction, we collect and release a large-scale dataset from Scored -- an alternative Reddit platform that sheltered banned fringe communities, for example, c/TheDonald (a prominent right-wing community) and c/GreatAwakening (a conspiratorial community). Over four years, we collected approximately 57M posts from Scored, with at least 58 communities identified as migrating from Reddit and over 950 communities created since the platform's inception. Furthermore, we provide sentence embeddings of all posts in our dataset, generated through a state-of-the-art model, to further advance the field in characterizing the discussions within these communities. We aim to provide these resources to facilitate their investigations without the need for extensive data collection and processing efforts.
- Abstract(参考訳): オンラインウェブコミュニティは、しばしばプラットフォームポリシー違反の禁止に直面し、代替プラットフォームへの移行を奨励する。
しかしこの移行は、新しいプラットフォームに対する毒性の増加と予期せぬ結果をもたらす可能性がある。
近年、多くの代替プラットフォームからデータを収集し、オフラインイベント、陰謀運動、ヘイトスピーチの伝播、ハラスメントにつながる協調的な取り組みを示している。
したがって、これらの代替プラットフォームを特徴づけ、理解することが重要となる。
この方向の研究を進めるために、私たちはScoredから大規模なデータセットを収集し、リリースしました。これは、禁止されたフリンジコミュニティ、例えばc/TheDonald(右翼の著名なコミュニティ)とc/GreatAwakening(陰謀的なコミュニティ)を保護したRedditプラットフォームです。
4年間にわたって、私たちはScoredから約5700万の投稿を収集しました。
さらに、これらのコミュニティ内での議論を特徴づける分野をさらに発展させるために、最先端のモデルによって生成されたデータセット内の全ての投稿の文埋め込みを提供する。
我々は、広範囲のデータ収集や処理を必要とせずに、これらのリソースを彼らの調査に役立てることを目指している。
関連論文リスト
- "I'm in the Bluesky Tonight": Insights from a Year Worth of Social Data [0.18416014644193066]
本稿では,Bluesky Socialのソーシャルインタラクションとユーザ生成コンテンツの大規模かつ高包括的データセットを提案する。
データセットには400万以上のユーザ(すべての登録アカウントの81%)の完全なポスト履歴が含まれており、総投稿数は235万である。
論文 参考訳(メタデータ) (2024-04-29T16:43:39Z) - MetaHate: A Dataset for Unifying Efforts on Hate Speech Detection [2.433983268807517]
ヘイトスピーチは、標的となる個人やコミュニティに対して、社会的、心理的、時には身体的脅威を生じさせる。
この現象に対処するための現在の計算言語学的アプローチは、トレーニングのためのラベル付きソーシャルメディアデータセットに依存している。
我々は60以上のデータセットを精査し、その関連するものをMetaHateに選択的に統合しました。
我々の発見は、既存のデータセットのより深い理解に寄与し、より堅牢で適応可能なモデルをトレーニングするための道を開いた。
論文 参考訳(メタデータ) (2024-01-12T11:54:53Z) - Design and analysis of tweet-based election models for the 2021 Mexican
legislative election [55.41644538483948]
選挙日前の6ヶ月の間に、1500万件の選挙関連ツイートのデータセットを使用します。
地理的属性を持つデータを用いたモデルが従来のポーリング法よりも精度と精度で選挙結果を決定することがわかった。
論文 参考訳(メタデータ) (2023-01-02T12:40:05Z) - Understanding Online Migration Decisions Following the Banning of
Radical Communities [0.2752817022620644]
本稿では,RECRO過激化フレームワークに関連する要因がユーザのマイグレーション決定にどのように関係するかを検討する。
この結果から,ユーザの行動に関連する個々のレベル要因が,フロンティアプラットフォームに投稿する決定に関連していることが示唆された。
論文 参考訳(メタデータ) (2022-12-09T10:43:15Z) - "I Can't Keep It Up." A Dataset from the Defunct Voat.co News Aggregator [0.0]
Voat.coは、2020年12月25日に閉鎖されたニュース集約サイトである。
本稿では、7.1Kサブバースで113Kユーザから230万以上の投稿と16.2Mコメントを投稿したデータセットを提案する。
論文 参考訳(メタデータ) (2022-01-15T23:25:53Z) - This Must Be the Place: Predicting Engagement of Online Communities in a
Large-scale Distributed Campaign [70.69387048368849]
我々は、何百万人ものアクティブメンバーを持つコミュニティの行動について研究する。
テキストキュー,コミュニティメタデータ,構造的特性を組み合わせたハイブリッドモデルを構築した。
Redditのr/placeを通じて、大規模なオンライン実験を通じて、私たちのモデルの適用性を実証します。
論文 参考訳(メタデータ) (2022-01-14T08:23:16Z) - News consumption and social media regulations policy [70.31753171707005]
我々は、ニュース消費とコンテンツ規制の間の相互作用を評価するために、反対のモデレーション手法であるTwitterとGabを強制した2つのソーシャルメディアを分析した。
以上の結果から,Twitterが追求するモデレーションの存在は,疑わしいコンテンツを著しく減少させることがわかった。
Gabに対する明確な規制の欠如は、ユーザが両方のタイプのコンテンツを扱う傾向を生じさせ、ディスカウント/エンドレスメントの振る舞いを考慮に入れた疑わしいコンテンツに対してわずかに好みを示す。
論文 参考訳(メタデータ) (2021-06-07T19:26:32Z) - Detecting Harmful Content On Online Platforms: What Platforms Need Vs.
Where Research Efforts Go [44.774035806004214]
オンラインプラットフォーム上の有害コンテンツには、ヘイトスピーチ、攻撃的言語、いじめとハラスメント、誤情報、スパム、暴力、グラフィックコンテンツ、性的虐待、自己被害など、さまざまな形態がある。
オンラインプラットフォームは、そのようなコンテンツを、社会的危害を抑えるため、法律に従うために、ユーザーのためにより包括的な環境を作るために、緩和しようとしている。
現在、オンラインプラットフォームが抑制しようとしている有害なコンテンツの種類と、そのようなコンテンツを自動的に検出する研究努力との間には、隔たりがある。
論文 参考訳(メタデータ) (2021-02-27T08:01:10Z) - Do Platform Migrations Compromise Content Moderation? Evidence from
r/The_Donald and r/Incels [20.41491269475746]
本研究は,コミュニティレベルの緩和措置にともなうオンラインコミュニティの進展状況について,大規模な観察研究の結果を報告する。
以上の結果から, いずれの場合も, モデレーションは新プラットフォームにおけるポスト活動を大幅に減少させることが明らかとなった。
それにもかかわらず、研究コミュニティの1つの利用者は、毒性や過激化に関連するシグナルの増加を示した。
論文 参考訳(メタデータ) (2020-10-20T16:03:06Z) - Echo Chambers on Social Media: A comparative analysis [64.2256216637683]
本研究では,4つのソーシャルメディアプラットフォーム上で100万ユーザが生成した100万個のコンテンツに対して,エコーチャンバーの操作的定義を導入し,大規模な比較分析を行う。
議論の的になっているトピックについてユーザの傾きを推測し、異なる特徴を分析してインタラクションネットワークを再構築する。
我々は、Facebookのようなニュースフィードアルゴリズムを実装するプラットフォームが、エコーチャンバの出現を招きかねないという仮説を支持する。
論文 参考訳(メタデータ) (2020-04-20T20:00:27Z) - An Iterative Approach for Identifying Complaint Based Tweets in Social
Media Platforms [76.9570531352697]
本稿では,トランスポートドメインに関連する苦情に基づく投稿を識別する反復的手法を提案する。
研究目的のための新しいデータセットのリリースとともに、包括的評価を行う。
論文 参考訳(メタデータ) (2020-01-24T22:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。