Fugu-MT 論文翻訳(概要): TGDataset: a Collection of Over One Hundred Thousand Telegram Channels

論文の概要: TGDataset: a Collection of Over One Hundred Thousand Telegram Channels

arxiv url: http://arxiv.org/abs/2303.05345v1
Date: Thu, 9 Mar 2023 15:42:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-10 14:12:50.495945
Title: TGDataset: a Collection of Over One Hundred Thousand Telegram Channels
Title（参考訳）: TGDataset: 数十万のテレグラムチャンネルのコレクション
Authors: Massimo La Morgia, Alessandro Mei, Alberto Maria Mongardini
Abstract要約: 本稿では,120,979のTelegramチャネルと4億以上のメッセージを含む新しいデータセットであるTGDatasetを提案する。我々は、データセット内で話される言語と、英語チャンネルでカバーされるトピックを分析した。生のデータセットに加えて、データセットの分析に使用したスクリプトと、Sabmykと呼ばれる新しい陰謀論のネットワークに属するチャネルのリストもリリースしました。
参考スコア（独自算出の注目度）: 69.22187804798162
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Telegram is one of the most popular instant messaging apps in today's digital age. In addition to providing a private messaging service, Telegram, with its channels, represents a valid medium for rapidly broadcasting content to a large audience (COVID-19 announcements), but, unfortunately, also for disseminating radical ideologies and coordinating attacks (Capitol Hill riot). This paper presents the TGDataset, a new dataset that includes 120,979 Telegram channels and over 400 million messages, making it the largest collection of Telegram channels to the best of our knowledge. After a brief introduction to the data collection process, we analyze the languages spoken within our dataset and the topic covered by English channels. Finally, we discuss some use cases in which our dataset can be extremely useful to understand better the Telegram ecosystem, as well as to study the diffusion of questionable news. In addition to the raw dataset, we released the scripts we used to analyze the dataset and the list of channels belonging to the network of a new conspiracy theory called Sabmyk.
Abstract（参考訳）: Telegramは、今日のデジタル時代で最も人気のあるインスタントメッセージングアプリの一つだ。プライベートメッセージングサービスの提供に加えて、Telegramはそのチャンネルとともに、大勢の人々にコンテンツを素早くブロードキャストするための有効なメディア(COVID-19の発表)でもあるが、残念ながら急進的なイデオロギーの広めや攻撃の調整(Capitol Hillの暴動)にも役立っている。本稿では,120,979のTelegramチャネルと4億以上のメッセージを含む新たなデータセットであるTGDatasetについて述べる。データ収集プロセスの簡単な紹介の後、データセット内で話される言語と、英語チャンネルでカバーされるトピックを分析します。最後に、我々のデータセットがTelegramのエコシステムをよりよく理解し、疑わしいニュースの拡散を研究するために非常に有用なユースケースについて議論する。生のデータセットに加えて、データセットの分析に使用したスクリプトと、Sabmykと呼ばれる新しい陰謀論のネットワークに属するチャネルのリストもリリースしました。

関連論文リスト

MisinfoTeleGraph: Network-driven Misinformation Detection for German Telegram Messages [5.533030792414604]
Misinfo-TeleGraphは、誤情報検出のための最初のドイツ語のTelegramベースのグラフデータセットである。公開チャネルから500万以上のメッセージが送信され、メタデータ、チャンネルの関係性、弱いラベルと強いラベルが満載されている。メッセージフォワードをネットワーク構造として組み込んだ,テキストのみのモデルとグラフニューラルネットワーク(GNN)の両方を評価する。
論文参考訳（メタデータ） (2025-06-27T12:32:19Z)
pytopicgram: A library for data extraction and topic modeling from Telegram channels [0.0]
pytopicgramは、研究者がこれらのTelegramメッセージを収集し、整理し、分析するのを助けるPythonライブラリである。 pytopicgramを使えば、ユーザーはコンテンツがどのように拡散し、聴衆がTelegramでどのように相互作用するかを知ることができる。
論文参考訳（メタデータ） (2025-02-07T12:41:47Z)
Characterizing and Detecting Propaganda-Spreading Accounts on Telegram [7.759087666892532]
偽情報キャンペーンやプロパガンダなどのソーシャルメディアに対する情報ベースの攻撃は、サイバーセキュリティの脅威を生じさせている。本稿では,適切なユーザメッセージとプロパガンダ応答の関係を活かした新しいプロパガンダ検出機構を提案する。本手法は, より高速で安価で, 検出率(97.6%)が11.6ポイント高い。
論文参考訳（メタデータ） (2024-06-12T11:07:27Z)
YODAS: Youtube-Oriented Dataset for Audio and Speech [47.60574092241447]
YODASは100以上の言語で500k時間以上の音声データからなる大規模多言語データセットである。手動または自動の字幕を含むラベル付きサブセットは、教師付きモデルトレーニングを促進する。 YODASはその規模で最初に公開されたデータセットであり、Creative Commonsライセンスの下で配布されている。
論文参考訳（メタデータ） (2024-06-02T23:43:27Z)
Partial Mobilization: Tracking Multilingual Information Flows Amongst Russian Media Outlets and Telegram [5.161088104035108]
我々は、2022年を通して、ロシアの16のメディアが732のTelegramチャンネルとどのように対話し、利用したかを調査した。我々は、ニュースメディアがTelegramを通じて既存の物語を広めるだけでなく、メッセージプラットフォームから資料を発信していることを示す。例えば、我々の研究のウェブサイト全体では、2.3%(ura.news)から26.7%(ukraina.ru)までの記事がTelegram上での活動から生まれたり反したりした内容について論じている。
論文参考訳（メタデータ） (2023-01-25T22:27:40Z)
Uncovering the Dark Side of Telegram: Fakes, Clones, Scams, and Conspiracy Movements [67.39353554498636]
我々は35,382の異なるチャンネルと130,000,000以上のメッセージを収集して,Telegramの大規模解析を行う。カードなどのダークウェブのプライバシー保護サービスにも、悪名高い活動がいくつかある。疑似チャネルを86%の精度で識別できる機械学習モデルを提案する。
論文参考訳（メタデータ） (2021-11-26T14:53:31Z)
Cross-lingual COVID-19 Fake News Detection [54.125563009333995]
低リソース言語(中国語)における新型コロナウイルスの誤報を検出するための最初の試みは、高リソース言語(英語)における事実チェックされたニュースのみを用いて行われる。そこで我々は、クロスランガルなニュースボディテキストを共同でエンコードし、ニュースコンテンツをキャプチャするCrossFakeというディープラーニングフレームワークを提案する。実験結果から,クロスランガル環境下でのCrossFakeの有効性が示された。
論文参考訳（メタデータ） (2021-10-13T04:44:02Z)
Introducing an Abusive Language Classification Framework for Telegram to Investigate the German Hater Community [0.6459215652021234]
我々は,(i)ドイツテレグラムのメッセージに対する虐待的言語分類モデルと,(ii)テレグラムチャンネルのヘイトフルネスに関する分類モデルからなるフレームワークを開発する。チャネル分類モデルでは,トピックモデルから得られるチャネル固有のコンテンツ情報とソーシャルグラフを組み合わせて,チャネルのヘイトフルネスを予測する手法を開発した。本研究のさらなるアウトプットとして,1,149件のTelegramメッセージを含むアノテート乱用言語データセットを作成した。
論文参考訳（メタデータ） (2021-09-15T14:58:46Z)
MTVR: Multilingual Moment Retrieval in Videos [89.24431389933703]
大規模な多言語ビデオモーメント検索データセットであるmTVRを導入し、21.8Kのテレビ番組ビデオクリップから218Kの英語と中国語のクエリを含む。データセットは、人気のTVRデータセット(英語)を中国語クエリと字幕のペアで拡張することで収集される。両言語からのデータを学習し,操作する多言語モーメント検索モデルであるmXMLを提案する。
論文参考訳（メタデータ） (2021-07-30T20:01:03Z)
Spot the conversation: speaker diarisation in the wild [108.61222789195209]
そこで本研究では,YouTubeビデオの映像自動ダイアリゼーション手法を提案する。次に,本手法を半自動データセット生成パイプラインに統合する。第3に、このパイプラインを使用して、VoxConverseと呼ばれる大規模なダイアリゼーションデータセットを作成します。
論文参考訳（メタデータ） (2020-07-02T15:55:54Z)
The Pushshift Telegram Dataset [1.7109522466982476]
モバイルメッセージングプラットフォームであるTelegramからデータセットを提示する。私たちのデータセットは27.8Kのチャネルと220万のユニークなユーザからの317万のメッセージで構成されています。
論文参考訳（メタデータ） (2020-01-23T10:37:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。