論文の概要: MuMiN: A Large-Scale Multilingual Multimodal Fact-Checked Misinformation
Social Network Dataset
- arxiv url: http://arxiv.org/abs/2202.11684v1
- Date: Wed, 23 Feb 2022 18:47:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 14:59:52.003941
- Title: MuMiN: A Large-Scale Multilingual Multimodal Fact-Checked Misinformation
Social Network Dataset
- Title(参考訳): MuMiN: 大規模多言語多言語 Fact-Checked Misinformation Social Network Dataset
- Authors: Dan Saattrup Nielsen and Ryan McConville
- Abstract要約: 我々は、公開誤情報グラフデータセット(MuMiN)を構築するためのデータ収集とリンクシステムを開発した。
MuMiNには、リッチなソーシャルメディアデータ(ツイート、返信、ユーザー、画像、記事、ハッシュタグ)があり、Twitterスレッド26万のツイートにまたがっている。
ソーシャルメディアを含むクレームの正確性に関連する2つのノード分類タスクのベースライン結果を提供し,これらが課題であることを示す。
- 参考スコア(独自算出の注目度): 1.4010916616909745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Misinformation is becoming increasingly prevalent on social media and in news
articles. It has become so widespread that we require algorithmic assistance
utilising machine learning to detect such content. Training these machine
learning models require datasets of sufficient scale, diversity and quality.
However, datasets in the field of automatic misinformation detection are
predominantly monolingual, include a limited amount of modalities and are not
of sufficient scale and quality. Addressing this, we develop a data collection
and linking system (MuMiN-trawl), to build a public misinformation graph
dataset (MuMiN), containing rich social media data (tweets, replies, users,
images, articles, hashtags) spanning 21 million tweets belonging to 26 thousand
Twitter threads, each of which have been semantically linked to 13 thousand
fact-checked claims across dozens of topics, events and domains, in 41
different languages, spanning more than a decade. The dataset is made available
as a heterogeneous graph via a Python package (mumin). We provide baseline
results for two node classification tasks related to the veracity of a claim
involving social media, and demonstrate that these are challenging tasks, with
the highest macro-average F1-score being 62.55% and 61.45% for the two tasks,
respectively. The MuMiN ecosystem is available at
https://mumin-dataset.github.io/, including the data, documentation, tutorials
and leaderboards.
- Abstract(参考訳): 誤報はソーシャルメディアやニュース記事でますます広まりつつある。
このようなコンテンツを検出するには,機械学習を利用したアルゴリズム支援が求められている。
これらの機械学習モデルのトレーニングには、十分なスケール、多様性、品質のデータセットが必要です。
しかし、自動誤報検出の分野におけるデータセットは、主に単言語であり、限られた量のモダリティを含み、十分なスケールと品質を持っていない。
データ収集・リンクシステム(MuMiN-trawl)を開発し、リッチなソーシャルメディアデータ(ツイート、返信、ユーザ、画像、記事、ハッシュタグ)を含む公開誤情報グラフデータセット(MuMiN)を構築する。
データセットはpythonパッケージ(mumin)を介して異種グラフとして利用できる。
本研究は,ソーシャル・メディアを含むクレームの妥当性に関連する2つのノード分類タスクのベースラインとなる結果を提供し,マクロ平均値f1-scoreが62.55%,61.45%の課題課題であることを示す。
MuMiNエコシステムはhttps://mumin-dataset.github.io/で利用可能だ。
関連論文リスト
- InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。
ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。
テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。
私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文 参考訳(メタデータ) (2024-09-19T08:41:21Z) - 3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。
我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。
実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-29T04:01:30Z) - DeMuX: Data-efficient Multilingual Learning [57.37123046817781]
DEMUXは、大量の重複しない多言語データからラベルを付けるための正確なデータポイントを規定するフレームワークである。
エンドツーエンドのフレームワークは言語に依存しず、モデル表現を記述し、多言語的ターゲット設定をサポートしています。
論文 参考訳(メタデータ) (2023-11-10T20:09:08Z) - MegaWika: Millions of reports and their sources across 50 diverse
languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文 参考訳(メタデータ) (2023-07-13T20:04:02Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - MMT: A Multilingual and Multi-Topic Indian Social Media Dataset [1.0413233169366503]
ソーシャルメディアは異文化間コミュニケーションにおいて重要な役割を担っている。
多くはコードミキシングと多言語形式で行われる。
我々はTwitterから収集した大規模多言語・マルチトピックデータセット(MMT)を紹介する。
論文 参考訳(メタデータ) (2023-04-02T21:39:00Z) - MM-Claims: A Dataset for Multimodal Claim Detection in Social Media [7.388174516838141]
我々は、COVID-19、気候変動、幅広い技術という3つのトピックについて、ツイートと対応する画像からなる新しいデータセットMM-Claimsを紹介した。
本稿では,このデータセットを詳細に記述し,強い単調およびマルチモーダルのベースラインを評価し,現在のモデルの可能性と欠点を解析する。
論文 参考訳(メタデータ) (2022-05-04T10:43:58Z) - Multi-Class and Automated Tweet Categorization [0.0]
この研究は、ツイートのカテゴリーをテキストから検出することを目的としている。
ツイートは、テキストマイニングまたは自然言語処理(NLP)と機械学習(ML)技術を使用して、12の特定カテゴリに分類される。
最高のアンサンブルモデルであるグラディエント・ブースティングはAUCのスコアが85%に達した。
論文 参考訳(メタデータ) (2021-11-13T14:28:47Z) - HumAID: Human-Annotated Disaster Incidents Data from Twitter with Deep
Learning Benchmarks [5.937482215664902]
ソーシャルメディアのコンテンツは、どんなアプリケーションでも直接使うにはうるさい。
効果的な消費と意思決定を促進するために、利用可能なコンテンツをフィルタリング、分類、および簡潔に要約することが重要です。
19の災害イベントで2400万ツイートのプールから抽出された77万ツイートの大規模なデータセットを紹介します。
論文 参考訳(メタデータ) (2021-04-07T12:29:36Z) - Leveraging Multi-domain, Heterogeneous Data using Deep Multitask
Learning for Hate Speech Detection [21.410160004193916]
畳み込みニューラルネットワークに基づくマルチタスク学習モデル(MTL)フットノートコードを提案し,複数のソースからの情報を活用する。
3つのベンチマークデータセットで実施した実証分析は,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-03-23T09:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。