論文の概要: TGDataset: Collecting and Exploring the Largest Telegram Channels Dataset
- arxiv url: http://arxiv.org/abs/2303.05345v2
- Date: Mon, 16 Dec 2024 15:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:55.174587
- Title: TGDataset: Collecting and Exploring the Largest Telegram Channels Dataset
- Title(参考訳): TGDataset: 最大のTelegram Channelsデータセットの収集と探索
- Authors: Massimo La Morgia, Alessandro Mei, Alberto Maria Mongardini,
- Abstract要約: 本稿では,120,979のTelegramチャネルと4億以上のメッセージを含む新しいデータセットであるTGDatasetを提案する。
我々は、データセット内で話される言語と、英語チャンネルでカバーされるトピックを分析した。
生のデータセットに加えて、データセットの分析に使用したスクリプトと、Sabmykと呼ばれる新しい陰謀論のネットワークに属するチャネルのリストもリリースしました。
- 参考スコア(独自算出の注目度): 57.2282378772772
- License:
- Abstract: Telegram is one of the most popular instant messaging apps in today's digital age. In addition to providing a private messaging service, Telegram, with its channels, represents a valid medium for rapidly broadcasting content to a large audience (COVID-19 announcements), but, unfortunately, also for disseminating radical ideologies and coordinating attacks (Capitol Hill riot). This paper presents the TGDataset, a new dataset that includes 120,979 Telegram channels and over 400 million messages, making it the largest collection of Telegram channels to the best of our knowledge. After a brief introduction to the data collection process, we analyze the languages spoken within our dataset and the topic covered by English channels. Finally, we discuss some use cases in which our dataset can be extremely useful to understand better the Telegram ecosystem, as well as to study the diffusion of questionable news. In addition to the raw dataset, we released the scripts we used to analyze the dataset and the list of channels belonging to the network of a new conspiracy theory called Sabmyk.
- Abstract(参考訳): Telegramは、今日のデジタル時代で最も人気のあるインスタントメッセージングアプリの一つだ。
プライベートメッセージングサービスの提供に加えて、Telegramはそのチャンネルとともに、大勢の人々にコンテンツを素早くブロードキャストするための有効なメディア(COVID-19の発表)でもあるが、残念ながら急進的なイデオロギーの拡散や攻撃の調整(Capitol Hillの暴動)にも役立っている。
本稿では,120,979のTelegramチャネルと4億以上のメッセージを含む新たなデータセットであるTGDatasetについて述べる。
データ収集プロセスの簡単な紹介の後、データセット内で話される言語と、英語チャンネルでカバーされるトピックを分析します。
最後に、我々のデータセットがTelegramのエコシステムをよりよく理解し、疑問のあるニュースの拡散を研究するのに非常に役立つユースケースについて論じる。
生のデータセットに加えて、データセットの分析に使用したスクリプトと、Sabmykと呼ばれる新しい陰謀論のネットワークに属するチャネルのリストもリリースしました。
関連論文リスト
- Characterizing and Detecting Propaganda-Spreading Accounts on Telegram [7.759087666892532]
偽情報キャンペーンやプロパガンダなどのソーシャルメディアに対する情報ベースの攻撃は、サイバーセキュリティの脅威を生じさせている。
本稿では,適切なユーザメッセージとプロパガンダ応答の関係を活かした新しいプロパガンダ検出機構を提案する。
本手法は, より高速で安価で, 検出率(97.6%)が11.6ポイント高い。
論文 参考訳(メタデータ) (2024-06-12T11:07:27Z) - YODAS: Youtube-Oriented Dataset for Audio and Speech [47.60574092241447]
YODASは100以上の言語で500k時間以上の音声データからなる大規模多言語データセットである。
手動または自動の字幕を含むラベル付きサブセットは、教師付きモデルトレーニングを促進する。
YODASはその規模で最初に公開されたデータセットであり、Creative Commonsライセンスの下で配布されている。
論文 参考訳(メタデータ) (2024-06-02T23:43:27Z) - Partial Mobilization: Tracking Multilingual Information Flows Amongst Russian Media Outlets and Telegram [5.161088104035108]
我々は、2022年を通して、ロシアの16のメディアが732のTelegramチャンネルとどのように対話し、利用したかを調査した。
我々は、ニュースメディアがTelegramを通じて既存の物語を広めるだけでなく、メッセージプラットフォームから資料を発信していることを示す。
例えば、我々の研究のウェブサイト全体では、2.3%(ura.news)から26.7%(ukraina.ru)までの記事がTelegram上での活動から生まれたり反したりした内容について論じている。
論文 参考訳(メタデータ) (2023-01-25T22:27:40Z) - Uncovering the Dark Side of Telegram: Fakes, Clones, Scams, and
Conspiracy Movements [67.39353554498636]
我々は35,382の異なるチャンネルと130,000,000以上のメッセージを収集して,Telegramの大規模解析を行う。
カードなどのダークウェブのプライバシー保護サービスにも、悪名高い活動がいくつかある。
疑似チャネルを86%の精度で識別できる機械学習モデルを提案する。
論文 参考訳(メタデータ) (2021-11-26T14:53:31Z) - Cross-lingual COVID-19 Fake News Detection [54.125563009333995]
低リソース言語(中国語)における新型コロナウイルスの誤報を検出するための最初の試みは、高リソース言語(英語)における事実チェックされたニュースのみを用いて行われる。
そこで我々は、クロスランガルなニュースボディテキストを共同でエンコードし、ニュースコンテンツをキャプチャするCrossFakeというディープラーニングフレームワークを提案する。
実験結果から,クロスランガル環境下でのCrossFakeの有効性が示された。
論文 参考訳(メタデータ) (2021-10-13T04:44:02Z) - Introducing an Abusive Language Classification Framework for Telegram to
Investigate the German Hater Community [0.6459215652021234]
我々は,(i)ドイツテレグラムのメッセージに対する虐待的言語分類モデルと,(ii)テレグラムチャンネルのヘイトフルネスに関する分類モデルからなるフレームワークを開発する。
チャネル分類モデルでは,トピックモデルから得られるチャネル固有のコンテンツ情報とソーシャルグラフを組み合わせて,チャネルのヘイトフルネスを予測する手法を開発した。
本研究のさらなるアウトプットとして,1,149件のTelegramメッセージを含むアノテート乱用言語データセットを作成した。
論文 参考訳(メタデータ) (2021-09-15T14:58:46Z) - MTVR: Multilingual Moment Retrieval in Videos [89.24431389933703]
大規模な多言語ビデオモーメント検索データセットであるmTVRを導入し、21.8Kのテレビ番組ビデオクリップから218Kの英語と中国語のクエリを含む。
データセットは、人気のTVRデータセット(英語)を中国語クエリと字幕のペアで拡張することで収集される。
両言語からのデータを学習し,操作する多言語モーメント検索モデルであるmXMLを提案する。
論文 参考訳(メタデータ) (2021-07-30T20:01:03Z) - Spot the conversation: speaker diarisation in the wild [108.61222789195209]
そこで本研究では,YouTubeビデオの映像自動ダイアリゼーション手法を提案する。
次に,本手法を半自動データセット生成パイプラインに統合する。
第3に、このパイプラインを使用して、VoxConverseと呼ばれる大規模なダイアリゼーションデータセットを作成します。
論文 参考訳(メタデータ) (2020-07-02T15:55:54Z) - The Pushshift Telegram Dataset [1.7109522466982476]
モバイルメッセージングプラットフォームであるTelegramからデータセットを提示する。
私たちのデータセットは27.8Kのチャネルと220万のユニークなユーザからの317万のメッセージで構成されています。
論文 参考訳(メタデータ) (2020-01-23T10:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。