論文の概要: The Pushshift Reddit Dataset
- arxiv url: http://arxiv.org/abs/2001.08435v1
- Date: Thu, 23 Jan 2020 10:31:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 05:09:35.858950
- Title: The Pushshift Reddit Dataset
- Title(参考訳): pushshift redditデータセット
- Authors: Jason Baumgartner, Savvas Zannettou, Brian Keegan, Megan Squire,
Jeremy Blackburn
- Abstract要約: Pushshiftはソーシャルメディアのデータ収集、分析、アーカイブプラットフォームで、2015年からRedditのデータを収集している。
PushshiftのRedditデータセットはリアルタイムで更新され、Redditの開始時の履歴データが含まれている。
- 参考スコア(独自算出の注目度): 1.5661920010658625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media data has become crucial to the advancement of scientific
understanding. However, even though it has become ubiquitous, just collecting
large-scale social media data involves a high degree of engineering skill set
and computational resources. In fact, research is often times gated by data
engineering problems that must be overcome before analysis can proceed. This
has resulted recognition of datasets as meaningful research contributions in
and of themselves. Reddit, the so called "front page of the Internet," in
particular has been the subject of numerous scientific studies. Although Reddit
is relatively open to data acquisition compared to social media platforms like
Facebook and Twitter, the technical barriers to acquisition still remain. Thus,
Reddit's millions of subreddits, hundreds of millions of users, and hundreds of
billions of comments are at the same time relatively accessible, but time
consuming to collect and analyze systematically. In this paper, we present the
Pushshift Reddit dataset. Pushshift is a social media data collection,
analysis, and archiving platform that since 2015 has collected Reddit data and
made it available to researchers. Pushshift's Reddit dataset is updated in
real-time, and includes historical data back to Reddit's inception. In addition
to monthly dumps, Pushshift provides computational tools to aid in searching,
aggregating, and performing exploratory analysis on the entirety of the
dataset. The Pushshift Reddit dataset makes it possible for social media
researchers to reduce time spent in the data collection, cleaning, and storage
phases of their projects.
- Abstract(参考訳): ソーシャルメディアデータは科学的理解の進歩に不可欠である。
しかし、ユビキタスになったとはいえ、大規模なソーシャルメディアデータを集めるだけで、高度なエンジニアリングスキルセットと計算リソースが必要になる。
実際、分析が進む前に克服しなければならないデータ工学の問題によって研究が妨げられることが多い。
この結果、データセット自体が意味のある研究貢献であると認識されるようになった。
特にredditは、いわゆる「インターネットの最前線」であり、多くの科学研究の対象となっている。
RedditはFacebookやTwitterのようなソーシャルメディアプラットフォームに比べて比較的オープンだが、買収の技術的障壁は依然として残っている。
このように、redditの数百万のサブreddit、数億人のユーザ、数十億のコメントは同時に比較的アクセス可能であるが、体系的に収集し分析するのに時間がかかる。
本稿では,pushshift redditデータセットについて述べる。
pushshiftはソーシャルメディアのデータ収集、分析、アーカイブのプラットフォームで、2015年からredditのデータを収集し、研究者に公開している。
PushshiftのRedditデータセットはリアルタイムで更新され、Redditの開始時の履歴データが含まれている。
毎月のダンプに加えて、Pushshiftはデータセット全体の検索、集約、探索分析を行うための計算ツールを提供する。
Pushshift Redditデータセットは、ソーシャルメディア研究者がプロジェクトのデータ収集、クリーニング、ストレージフェーズに費やす時間を短縮することを可能にする。
関連論文リスト
- Labeled Datasets for Research on Information Operations [71.34999856621306]
ソーシャルメディアプラットフォームによって検証されたIOポストと、同様のトピックを同じ時間フレーム(制御データ)で議論した303kアカウントによる1300万以上の投稿の両方を含む、26のキャンペーンに関するラベル付きデータセットを新たに提示する。
データセットは、さまざまなキャンペーンや国で調整されたアカウントによって使用される物語、ネットワークインタラクション、エンゲージメント戦略の研究を促進する。
論文 参考訳(メタデータ) (2024-11-15T22:15:01Z) - "I'm in the Bluesky Tonight": Insights from a Year Worth of Social Data [0.18416014644193066]
本稿では,Bluesky Socialのソーシャルインタラクションとユーザ生成コンテンツの大規模かつ高包括的データセットを提案する。
データセットには400万以上のユーザ(すべての登録アカウントの81%)の完全なポスト履歴が含まれており、総投稿数は235万である。
論文 参考訳(メタデータ) (2024-04-29T16:43:39Z) - Social Intelligence Data Infrastructure: Structuring the Present and Navigating the Future [59.78608958395464]
私たちは、包括的な社会AI分類と480のNLPデータセットからなるデータライブラリで構成される、ソーシャルAIデータインフラストラクチャを構築しています。
インフラストラクチャにより、既存のデータセットの取り組みを分析し、異なるソーシャルインテリジェンスの観点から言語モデルのパフォーマンスを評価することができます。
多面的なデータセットの必要性、言語と文化の多様性の向上、より長期にわたる社会的状況、そして将来のソーシャルインテリジェンスデータ活動におけるよりインタラクティブなデータの必要性が示されている。
論文 参考訳(メタデータ) (2024-02-28T00:22:42Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Data+Shift: Supporting visual investigation of data distribution shifts
by data scientists [1.6311150636417262]
Data+Shiftは、データ機能のシフトの根底にある要因を調査するタスクにおいて、データサイエンティストをサポートするビジュアル分析ツールである。
我々は、データサイエンティストが不正検出のユースケースにこのツールを使用したシンクオード実験で、我々のアプローチを検証した。
論文 参考訳(メタデータ) (2022-04-29T11:50:25Z) - Retiring Adult: New Datasets for Fair Machine Learning [47.27417042497261]
UCIアダルトは、多くのアルゴリズム的公正な介入の開発と比較の基礎として機能している。
UCIアダルトデータのスーパーセットを米国国勢調査資料から再構築し、その外部妥当性を制限するUCIアダルトデータセットの慣用性を明らかにする。
私たちの主な貢献は、公正な機械学習の研究のために既存のデータエコシステムを拡張する、一連の新しいデータセットです。
論文 参考訳(メタデータ) (2021-08-10T19:19:41Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z) - Reliable and Efficient Long-Term Social Media Monitoring [4.389610557232119]
このテクニカルレポートは、クラウドベースのデータ収集、前処理、およびアーカイブインフラストラクチャを提示する。
このアプローチがさまざまなクラウドコンピューティングアーキテクチャでどのように機能するか、他のソーシャルメディアプラットフォームからストリーミングデータを収集する方法にどのように適応するかを示す。
論文 参考訳(メタデータ) (2020-05-05T19:04:56Z) - Echo Chambers on Social Media: A comparative analysis [64.2256216637683]
本研究では,4つのソーシャルメディアプラットフォーム上で100万ユーザが生成した100万個のコンテンツに対して,エコーチャンバーの操作的定義を導入し,大規模な比較分析を行う。
議論の的になっているトピックについてユーザの傾きを推測し、異なる特徴を分析してインタラクションネットワークを再構築する。
我々は、Facebookのようなニュースフィードアルゴリズムを実装するプラットフォームが、エコーチャンバの出現を招きかねないという仮説を支持する。
論文 参考訳(メタデータ) (2020-04-20T20:00:27Z) - Curating Social Media Data [0.0]
本稿では,ソーシャルデータのクリーン化とキュレーションを可能にするデータキュレーションパイプラインであるCrowdCorrectを提案する。
当社のパイプラインは,既存の社内ツールを使用してソーシャルメディアデータのコーパスから自動機能抽出を行う。
このパイプラインの実装には、生データをキュレートするクラウドユーザの貢献を促進するために、マイクロタスクを自動生成するツールセットも含まれている。
論文 参考訳(メタデータ) (2020-02-21T10:07:15Z) - The Pushshift Telegram Dataset [1.7109522466982476]
モバイルメッセージングプラットフォームであるTelegramからデータセットを提示する。
私たちのデータセットは27.8Kのチャネルと220万のユニークなユーザからの317万のメッセージで構成されています。
論文 参考訳(メタデータ) (2020-01-23T10:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。