論文の概要: The Pushshift Reddit Dataset
- arxiv url: http://arxiv.org/abs/2001.08435v1
- Date: Thu, 23 Jan 2020 10:31:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 05:09:35.858950
- Title: The Pushshift Reddit Dataset
- Title(参考訳): pushshift redditデータセット
- Authors: Jason Baumgartner, Savvas Zannettou, Brian Keegan, Megan Squire,
Jeremy Blackburn
- Abstract要約: Pushshiftはソーシャルメディアのデータ収集、分析、アーカイブプラットフォームで、2015年からRedditのデータを収集している。
PushshiftのRedditデータセットはリアルタイムで更新され、Redditの開始時の履歴データが含まれている。
- 参考スコア(独自算出の注目度): 1.5661920010658625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media data has become crucial to the advancement of scientific
understanding. However, even though it has become ubiquitous, just collecting
large-scale social media data involves a high degree of engineering skill set
and computational resources. In fact, research is often times gated by data
engineering problems that must be overcome before analysis can proceed. This
has resulted recognition of datasets as meaningful research contributions in
and of themselves. Reddit, the so called "front page of the Internet," in
particular has been the subject of numerous scientific studies. Although Reddit
is relatively open to data acquisition compared to social media platforms like
Facebook and Twitter, the technical barriers to acquisition still remain. Thus,
Reddit's millions of subreddits, hundreds of millions of users, and hundreds of
billions of comments are at the same time relatively accessible, but time
consuming to collect and analyze systematically. In this paper, we present the
Pushshift Reddit dataset. Pushshift is a social media data collection,
analysis, and archiving platform that since 2015 has collected Reddit data and
made it available to researchers. Pushshift's Reddit dataset is updated in
real-time, and includes historical data back to Reddit's inception. In addition
to monthly dumps, Pushshift provides computational tools to aid in searching,
aggregating, and performing exploratory analysis on the entirety of the
dataset. The Pushshift Reddit dataset makes it possible for social media
researchers to reduce time spent in the data collection, cleaning, and storage
phases of their projects.
- Abstract(参考訳): ソーシャルメディアデータは科学的理解の進歩に不可欠である。
しかし、ユビキタスになったとはいえ、大規模なソーシャルメディアデータを集めるだけで、高度なエンジニアリングスキルセットと計算リソースが必要になる。
実際、分析が進む前に克服しなければならないデータ工学の問題によって研究が妨げられることが多い。
この結果、データセット自体が意味のある研究貢献であると認識されるようになった。
特にredditは、いわゆる「インターネットの最前線」であり、多くの科学研究の対象となっている。
RedditはFacebookやTwitterのようなソーシャルメディアプラットフォームに比べて比較的オープンだが、買収の技術的障壁は依然として残っている。
このように、redditの数百万のサブreddit、数億人のユーザ、数十億のコメントは同時に比較的アクセス可能であるが、体系的に収集し分析するのに時間がかかる。
本稿では,pushshift redditデータセットについて述べる。
pushshiftはソーシャルメディアのデータ収集、分析、アーカイブのプラットフォームで、2015年からredditのデータを収集し、研究者に公開している。
PushshiftのRedditデータセットはリアルタイムで更新され、Redditの開始時の履歴データが含まれている。
毎月のダンプに加えて、Pushshiftはデータセット全体の検索、集約、探索分析を行うための計算ツールを提供する。
Pushshift Redditデータセットは、ソーシャルメディア研究者がプロジェクトのデータ収集、クリーニング、ストレージフェーズに費やす時間を短縮することを可能にする。
関連論文リスト
- ManiTweet: A New Benchmark for Identifying Manipulation of News on
Social Media [53.51665032295087]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Advanced Data Augmentation Approaches: A Comprehensive Survey and Future
directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。
また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文 参考訳(メタデータ) (2023-01-07T11:37:32Z) - Data+Shift: Supporting visual investigation of data distribution shifts
by data scientists [1.6311150636417262]
Data+Shiftは、データ機能のシフトの根底にある要因を調査するタスクにおいて、データサイエンティストをサポートするビジュアル分析ツールである。
我々は、データサイエンティストが不正検出のユースケースにこのツールを使用したシンクオード実験で、我々のアプローチを検証した。
論文 参考訳(メタデータ) (2022-04-29T11:50:25Z) - DataLab: A Platform for Data Analysis and Intervention [96.75253335629534]
DataLabは統一されたデータ指向プラットフォームであり、ユーザはデータの特徴をインタラクティブに分析することができる。
ツールネームには、データセットレコメンデーションとグローバルビジョン分析のための機能がある。
これまでのところ、DataLabは1,715のデータセットと3,583の変換バージョンをカバーしている。
論文 参考訳(メタデータ) (2022-02-25T18:32:19Z) - Retiring Adult: New Datasets for Fair Machine Learning [47.27417042497261]
UCIアダルトは、多くのアルゴリズム的公正な介入の開発と比較の基礎として機能している。
UCIアダルトデータのスーパーセットを米国国勢調査資料から再構築し、その外部妥当性を制限するUCIアダルトデータセットの慣用性を明らかにする。
私たちの主な貢献は、公正な機械学習の研究のために既存のデータエコシステムを拡張する、一連の新しいデータセットです。
論文 参考訳(メタデータ) (2021-08-10T19:19:41Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z) - Reliable and Efficient Long-Term Social Media Monitoring [4.389610557232119]
このテクニカルレポートは、クラウドベースのデータ収集、前処理、およびアーカイブインフラストラクチャを提示する。
このアプローチがさまざまなクラウドコンピューティングアーキテクチャでどのように機能するか、他のソーシャルメディアプラットフォームからストリーミングデータを収集する方法にどのように適応するかを示す。
論文 参考訳(メタデータ) (2020-05-05T19:04:56Z) - Echo Chambers on Social Media: A comparative analysis [64.2256216637683]
本研究では,4つのソーシャルメディアプラットフォーム上で100万ユーザが生成した100万個のコンテンツに対して,エコーチャンバーの操作的定義を導入し,大規模な比較分析を行う。
議論の的になっているトピックについてユーザの傾きを推測し、異なる特徴を分析してインタラクションネットワークを再構築する。
我々は、Facebookのようなニュースフィードアルゴリズムを実装するプラットフォームが、エコーチャンバの出現を招きかねないという仮説を支持する。
論文 参考訳(メタデータ) (2020-04-20T20:00:27Z) - Curating Social Media Data [0.0]
本稿では,ソーシャルデータのクリーン化とキュレーションを可能にするデータキュレーションパイプラインであるCrowdCorrectを提案する。
当社のパイプラインは,既存の社内ツールを使用してソーシャルメディアデータのコーパスから自動機能抽出を行う。
このパイプラインの実装には、生データをキュレートするクラウドユーザの貢献を促進するために、マイクロタスクを自動生成するツールセットも含まれている。
論文 参考訳(メタデータ) (2020-02-21T10:07:15Z) - The Pushshift Telegram Dataset [1.7109522466982476]
モバイルメッセージングプラットフォームであるTelegramからデータセットを提示する。
私たちのデータセットは27.8Kのチャネルと220万のユニークなユーザからの317万のメッセージで構成されています。
論文 参考訳(メタデータ) (2020-01-23T10:37:33Z) - Raiders of the Lost Kek: 3.5 Years of Augmented 4chan Posts from the
Politically Incorrect Board [12.14455026524814]
本稿では,3.3M以上のスレッドと134.5Mのポストを持つデータセットを,画像掲示板フォーラム4chanから提示する。
私たちの知る限りでは、これは公開可能な4chanデータセットとしては最大である。
このデータセットがソーシャルメディアのクロスプラットフォーム研究に使われ、自然言語処理などの他の研究にも役立つことを願っている。
論文 参考訳(メタデータ) (2020-01-21T12:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。