論文の概要: TGDataset: a Collection of Over One Hundred Thousand Telegram Channels
- arxiv url: http://arxiv.org/abs/2303.05345v1
- Date: Thu, 9 Mar 2023 15:42:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 14:12:50.495945
- Title: TGDataset: a Collection of Over One Hundred Thousand Telegram Channels
- Title(参考訳): TGDataset: 数十万のテレグラムチャンネルのコレクション
- Authors: Massimo La Morgia, Alessandro Mei, Alberto Maria Mongardini
- Abstract要約: 本稿では,120,979のTelegramチャネルと4億以上のメッセージを含む新しいデータセットであるTGDatasetを提案する。
我々は、データセット内で話される言語と、英語チャンネルでカバーされるトピックを分析した。
生のデータセットに加えて、データセットの分析に使用したスクリプトと、Sabmykと呼ばれる新しい陰謀論のネットワークに属するチャネルのリストもリリースしました。
- 参考スコア(独自算出の注目度): 69.22187804798162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Telegram is one of the most popular instant messaging apps in today's digital
age. In addition to providing a private messaging service, Telegram, with its
channels, represents a valid medium for rapidly broadcasting content to a large
audience (COVID-19 announcements), but, unfortunately, also for disseminating
radical ideologies and coordinating attacks (Capitol Hill riot). This paper
presents the TGDataset, a new dataset that includes 120,979 Telegram channels
and over 400 million messages, making it the largest collection of Telegram
channels to the best of our knowledge. After a brief introduction to the data
collection process, we analyze the languages spoken within our dataset and the
topic covered by English channels. Finally, we discuss some use cases in which
our dataset can be extremely useful to understand better the Telegram
ecosystem, as well as to study the diffusion of questionable news. In addition
to the raw dataset, we released the scripts we used to analyze the dataset and
the list of channels belonging to the network of a new conspiracy theory called
Sabmyk.
- Abstract(参考訳): Telegramは、今日のデジタル時代で最も人気のあるインスタントメッセージングアプリの一つだ。
プライベートメッセージングサービスの提供に加えて、Telegramはそのチャンネルとともに、大勢の人々にコンテンツを素早くブロードキャストするための有効なメディア(COVID-19の発表)でもあるが、残念ながら急進的なイデオロギーの広めや攻撃の調整(Capitol Hillの暴動)にも役立っている。
本稿では,120,979のTelegramチャネルと4億以上のメッセージを含む新たなデータセットであるTGDatasetについて述べる。
データ収集プロセスの簡単な紹介の後、データセット内で話される言語と、英語チャンネルでカバーされるトピックを分析します。
最後に、我々のデータセットがTelegramのエコシステムをよりよく理解し、疑わしいニュースの拡散を研究するために非常に有用なユースケースについて議論する。
生のデータセットに加えて、データセットの分析に使用したスクリプトと、Sabmykと呼ばれる新しい陰謀論のネットワークに属するチャネルのリストもリリースしました。
関連論文リスト
- Partial Mobilization: Tracking Multilingual Information Flows Amongst
Russian Media Outlets and Telegram [4.357949911556638]
我々は、2022年を通して、ロシアの16のメディアが732のTelegramチャンネルとどのように対話し、利用したかを調査した。
我々は、ニュースメディアがTelegramを通じて既存の物語を広めるだけでなく、メッセージプラットフォームから資料を引き出すことを示す。
調査対象のサイト全体では、Telegram上での活動から生じたコンテンツについて、記事の2.3%(ura.news)から26.7%(ukraina.ru)の間で議論している。
論文 参考訳(メタデータ) (2023-01-25T22:27:40Z) - Uncovering the Dark Side of Telegram: Fakes, Clones, Scams, and
Conspiracy Movements [67.39353554498636]
我々は35,382の異なるチャンネルと130,000,000以上のメッセージを収集して,Telegramの大規模解析を行う。
カードなどのダークウェブのプライバシー保護サービスにも、悪名高い活動がいくつかある。
疑似チャネルを86%の精度で識別できる機械学習モデルを提案する。
論文 参考訳(メタデータ) (2021-11-26T14:53:31Z) - Cross-lingual COVID-19 Fake News Detection [54.125563009333995]
低リソース言語(中国語)における新型コロナウイルスの誤報を検出するための最初の試みは、高リソース言語(英語)における事実チェックされたニュースのみを用いて行われる。
そこで我々は、クロスランガルなニュースボディテキストを共同でエンコードし、ニュースコンテンツをキャプチャするCrossFakeというディープラーニングフレームワークを提案する。
実験結果から,クロスランガル環境下でのCrossFakeの有効性が示された。
論文 参考訳(メタデータ) (2021-10-13T04:44:02Z) - Introducing an Abusive Language Classification Framework for Telegram to
Investigate the German Hater Community [0.6459215652021234]
我々は,(i)ドイツテレグラムのメッセージに対する虐待的言語分類モデルと,(ii)テレグラムチャンネルのヘイトフルネスに関する分類モデルからなるフレームワークを開発する。
チャネル分類モデルでは,トピックモデルから得られるチャネル固有のコンテンツ情報とソーシャルグラフを組み合わせて,チャネルのヘイトフルネスを予測する手法を開発した。
本研究のさらなるアウトプットとして,1,149件のTelegramメッセージを含むアノテート乱用言語データセットを作成した。
論文 参考訳(メタデータ) (2021-09-15T14:58:46Z) - MTVR: Multilingual Moment Retrieval in Videos [89.24431389933703]
大規模な多言語ビデオモーメント検索データセットであるmTVRを導入し、21.8Kのテレビ番組ビデオクリップから218Kの英語と中国語のクエリを含む。
データセットは、人気のTVRデータセット(英語)を中国語クエリと字幕のペアで拡張することで収集される。
両言語からのデータを学習し,操作する多言語モーメント検索モデルであるmXMLを提案する。
論文 参考訳(メタデータ) (2021-07-30T20:01:03Z) - A First Look at COVID-19 Messages on WhatsApp in Pakistan [6.336355456383468]
新型コロナウイルス(COVID-19)は、WhatsAppやTwitterなどのソーシャルメディアプラットフォームでインフォデミック(インフォデミック)を発生させるなど、オンライン上での広範な議論を引き起こしている。
パキスタンのWhatsAppグループを対象に、新型コロナウイルスに関する最初の分析を行った。
論文 参考訳(メタデータ) (2020-11-18T07:56:24Z) - Spot the conversation: speaker diarisation in the wild [108.61222789195209]
そこで本研究では,YouTubeビデオの映像自動ダイアリゼーション手法を提案する。
次に,本手法を半自動データセット生成パイプラインに統合する。
第3に、このパイプラインを使用して、VoxConverseと呼ばれる大規模なダイアリゼーションデータセットを作成します。
論文 参考訳(メタデータ) (2020-07-02T15:55:54Z) - TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval [111.93601253692165]
テレビ番組 Retrieval (TVR) は、新しいマルチモーダル検索データセットである。
TVRはビデオとそれに関連するサブタイトル(対話)のテキストの両方を理解する必要がある。
データセットには、さまざまなジャンルの6つのテレビ番組から21.8Kビデオで収集された109Kクエリが含まれている。
論文 参考訳(メタデータ) (2020-01-24T17:09:39Z) - The Pushshift Telegram Dataset [1.7109522466982476]
モバイルメッセージングプラットフォームであるTelegramからデータセットを提示する。
私たちのデータセットは27.8Kのチャネルと220万のユニークなユーザからの317万のメッセージで構成されています。
論文 参考訳(メタデータ) (2020-01-23T10:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。