論文の概要: The Pushshift Telegram Dataset
- arxiv url: http://arxiv.org/abs/2001.08438v1
- Date: Thu, 23 Jan 2020 10:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 05:10:00.848998
- Title: The Pushshift Telegram Dataset
- Title(参考訳): pushshift telegramデータセット
- Authors: Jason Baumgartner, Savvas Zannettou, Megan Squire, Jeremy Blackburn
- Abstract要約: モバイルメッセージングプラットフォームであるTelegramからデータセットを提示する。
私たちのデータセットは27.8Kのチャネルと220万のユニークなユーザからの317万のメッセージで構成されています。
- 参考スコア(独自算出の注目度): 1.7109522466982476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Messaging platforms, especially those with a mobile focus, have become
increasingly ubiquitous in society. These mobile messaging platforms can have
deceivingly large user bases, and in addition to being a way for people to stay
in touch, are often used to organize social movements, as well as a place for
extremists and other ne'er-do-well to congregate. In this paper, we present a
dataset from one such mobile messaging platform: Telegram. Our dataset is made
up of over 27.8K channels and 317M messages from 2.2M unique users. To the best
of our knowledge, our dataset comprises the largest and most complete of its
kind. In addition to the raw data, we also provide the source code used to
collect it, allowing researchers to run their own data collection instance. We
believe the Pushshift Telegram dataset can help researchers from a variety of
disciplines interested in studying online social movements, protests, political
extremism, and disinformation.
- Abstract(参考訳): メッセージングプラットフォーム、特にモバイルに焦点を当てたプラットフォームは、社会の中でますます普及している。
これらのモバイルメッセージングプラットフォームは、非常に大きなユーザー基盤を持ち、人々が連絡を取り合うための手段であるだけでなく、社会運動の組織化にもしばしば使われ、過激派やNe'er-do-wellが集まる場所でもある。
本稿では,モバイルメッセージングプラットフォームであるTelegramのデータセットについて述べる。
私たちのデータセットは、27.8kチャネルと2.2mのユニークユーザからの317mメッセージで構成されています。
我々の知る限りでは、我々のデータセットはその種類の最大かつ最も完全なものである。
生のデータに加えて、収集に使用するソースコードも提供し、研究者が独自のデータ収集インスタンスを実行できるようにしています。
pushshift telegramデータセットは、オンライン社会運動、抗議活動、政治的過激主義、偽情報の研究に関心のあるさまざまな分野の研究者に役立つと信じています。
関連論文リスト
- Labeled Datasets for Research on Information Operations [71.34999856621306]
ソーシャルメディアプラットフォームによって検証されたIOポストと、同様のトピックを同じ時間フレーム(制御データ)で議論した303kアカウントによる1300万以上の投稿の両方を含む、26のキャンペーンに関するラベル付きデータセットを新たに提示する。
データセットは、さまざまなキャンペーンや国で調整されたアカウントによって使用される物語、ネットワークインタラクション、エンゲージメント戦略の研究を促進する。
論文 参考訳(メタデータ) (2024-11-15T22:15:01Z) - WildChat: 1M ChatGPT Interaction Logs in the Wild [88.05964311416717]
WildChatは100万件のユーザー・チャットGPT会話のコーパスで、250万回以上のインタラクション・ターンで構成されている。
タイムスタンプによるチャットの書き起こしに加えて、州、国、ハッシュIPアドレスを含む人口統計データでデータセットを豊かにします。
論文 参考訳(メタデータ) (2024-05-02T17:00:02Z) - WhatsApp Explorer: A Data Donation Tool To Facilitate Research on WhatsApp [1.2507543279181124]
本稿では,WhatsAppデータ収集を大規模に実現するツールであるWhatsApp Explorerを紹介する。
我々は、潜在的なサンプリングアプローチを含む、データ収集のためのプロトコルについて議論し、我々のツール(および隣接するプロトコル)がWhatsAppデータを倫理的かつ法的に、大規模に収集することを可能にする理由を説明します。
論文 参考訳(メタデータ) (2024-03-29T13:30:29Z) - An Exploratory Analysis of COVID Bot vs Human Disinformation
Dissemination stemming from the Disinformation Dozen on Telegram [5.494111035517598]
2021年の新型コロナウイルス(COVID-19)パンデミックは、世界的な健康危機を引き起こし、インフォデミックを引き起こした。
新型コロナウイルス(COVID-19)や治療、ワクチンなどの偽情報を広める鍵として、12人のソーシャルメディアパーソナリティが特定された。
本研究は、モバイルメッセージングおよびソーシャルメディアプラットフォームであるTelegram上で、このグループによって広められた偽情報の拡散に焦点を当てた。
論文 参考訳(メタデータ) (2024-02-22T01:10:11Z) - LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - TGDataset: a Collection of Over One Hundred Thousand Telegram Channels [69.22187804798162]
本稿では,120,979のTelegramチャネルと4億以上のメッセージを含む新しいデータセットであるTGDatasetを提案する。
我々は、データセット内で話される言語と、英語チャンネルでカバーされるトピックを分析した。
生のデータセットに加えて、データセットの分析に使用したスクリプトと、Sabmykと呼ばれる新しい陰謀論のネットワークに属するチャネルのリストもリリースしました。
論文 参考訳(メタデータ) (2023-03-09T15:42:38Z) - A Hierarchical Network-Oriented Analysis of User Participation in
Misinformation Spread on WhatsApp [0.9774299772405469]
WhatsApp上での誤情報拡散に関わるユーザの階層的ネットワーク指向特性について述べる。
私たちの研究は、WhatsAppユーザーが異なるグループを繋ぐネットワークを活用して、プラットフォーム上での誤情報拡散に大きなリーチを得る方法について、貴重な洞察を提供する。
論文 参考訳(メタデータ) (2021-09-22T00:00:02Z) - Named Entity Recognition for Social Media Texts with Semantic
Augmentation [70.44281443975554]
名前付きエンティティ認識のための既存のアプローチは、短いテキストと非公式テキストで実行される場合、データ空間の問題に悩まされる。
そこで我々は,NER によるソーシャルメディアテキストに対するニューラルベースアプローチを提案し,ローカルテキストと拡張セマンティクスの両方を考慮に入れた。
論文 参考訳(メタデータ) (2020-10-29T10:06:46Z) - PoliWAM: An Exploration of a Large Scale Corpus of Political Discussions
on WhatsApp Messenger [1.2301855531996841]
WhatsApp Messengerは、現在180か国、20億人以上で情報を広める最も人気のあるチャンネルの1つだ。
近年、いくつかの国が政治的・社会的キャンペーンにおいてその効果と影響力を目撃している。
我々は選挙運動中に情報とプロパガンダの流れが急増しているのを観察する。
論文 参考訳(メタデータ) (2020-10-26T00:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。