論文の概要: From Generation to Detection: A Multimodal Multi-Task Dataset for Benchmarking Health Misinformation
- arxiv url: http://arxiv.org/abs/2505.18685v1
- Date: Sat, 24 May 2025 13:04:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.59041
- Title: From Generation to Detection: A Multimodal Multi-Task Dataset for Benchmarking Health Misinformation
- Title(参考訳): 生成から検出へ:健康情報ベンチマークのためのマルチモーダルマルチタスクデータセット
- Authors: Zhihao Zhang, Yiran Zhang, Xiyue Zhou, Liting Huang, Imran Razzak, Preslav Nakov, Usman Naseem,
- Abstract要約: 本稿では,34,746のニュース記事からなる健康領域における大規模マルチモーダル誤報データセットであるMM Healthについて紹介する。
MM Healthには、さまざまなSOTA生成AIモデルから生成された、人間生成のマルチモーダル情報(5,776記事)とAI生成のマルチモーダル情報(28,880記事)が含まれている。
- 参考スコア(独自算出の注目度): 40.226443705818404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Infodemics and health misinformation have significant negative impact on individuals and society, exacerbating confusion and increasing hesitancy in adopting recommended health measures. Recent advancements in generative AI, capable of producing realistic, human like text and images, have significantly accelerated the spread and expanded the reach of health misinformation, resulting in an alarming surge in its dissemination. To combat the infodemics, most existing work has focused on developing misinformation datasets from social media and fact checking platforms, but has faced limitations in topical coverage, inclusion of AI generation, and accessibility of raw content. To address these issues, we present MM Health, a large scale multimodal misinformation dataset in the health domain consisting of 34,746 news article encompassing both textual and visual information. MM Health includes human-generated multimodal information (5,776 articles) and AI generated multimodal information (28,880 articles) from various SOTA generative AI models. Additionally, We benchmarked our dataset against three tasks (reliability checks, originality checks, and fine-grained AI detection) demonstrating that existing SOTA models struggle to accurately distinguish the reliability and origin of information. Our dataset aims to support the development of misinformation detection across various health scenarios, facilitating the detection of human and machine generated content at multimodal levels.
- Abstract(参考訳): インフォデミクスと健康上の誤報は、個人や社会に重大な悪影響を及ぼし、混乱を悪化させ、推奨された健康対策を採用する際の不安を増す。
テキストや画像のような現実的な人間を生成できる生成AIの最近の進歩は、拡散を著しく加速し、健康上の誤情報の範囲を拡大し、その普及を脅かす結果となった。
インフォデミクスに対抗するために、既存のほとんどの研究はソーシャルメディアやファクトチェックプラットフォームからの誤情報データセットの開発に重点を置いてきたが、トピックのカバレッジ、AI生成のインクルージョン、生コンテンツのアクセシビリティといった制限に直面している。
これらの問題に対処するために,テキスト情報と視覚情報の両方を含む34,746のニュース記事からなる,大規模マルチモーダル誤報データセットであるMM Healthを提案する。
MM Healthには、さまざまなSOTA生成AIモデルから生成された、人間生成のマルチモーダル情報(5,776記事)とAI生成のマルチモーダル情報(28,880記事)が含まれている。
さらに、我々のデータセットを3つのタスク(信頼性チェック、独創性チェック、きめ細かいAI検出)に対してベンチマークし、既存のSOTAモデルが情報の信頼性と起源を正確に識別するのに苦労していることを示した。
我々のデータセットは、さまざまな健康シナリオにおける誤情報検出の開発を支援し、マルチモーダルレベルで人や機械が生成したコンテンツの検出を容易にすることを目的としている。
関連論文リスト
- Information Retrieval in the Age of Generative AI: The RGB Model [77.96475639967431]
本稿では,生成型AIツールの利用の増加に伴って生じる複雑な情報ダイナミクスについて,新たな定量的アプローチを提案する。
本稿では,新たなトピックに応答して情報の生成,索引付け,普及を特徴付けるモデルを提案する。
以上の結果から,AI導入の急激なペースとユーザ依存度の増加は,不正確な情報拡散のリスクを増大させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-04-29T10:21:40Z) - A Large-Scale Vision-Language Dataset Derived from Open Scientific Literature to Advance Biomedical Generalist AI [70.06771291117965]
PubMed Central Open Accessサブセットから派生したオープンソースのデータセットであるBiomedicaを紹介する。
Biomedicaには600万以上の科学論文と2400万の画像テキストペアが含まれている。
私たちは、Webサーバを通じてスケーラブルなストリーミングと検索APIを提供し、AIシステムとのシームレスな統合を容易にします。
論文 参考訳(メタデータ) (2025-03-26T05:56:46Z) - MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。
65以上の疾患に対する多彩なアノテーションを備えた10のモダリティで、2500万以上の画像をカバーしている。
画像テキストペアの可用性に制限がある既存のマルチモーダルデータセットとは異なり、我々は最初の自動パイプラインを開発した。
論文 参考訳(メタデータ) (2024-08-06T02:09:35Z) - RU-AI: A Large Multimodal Dataset for Machine-Generated Content Detection [11.265512559447986]
本稿では,テキスト,画像,音声中の機械生成コンテンツを堅牢かつ効果的に検出するための大規模マルチモーダルデータセットであるRU-AIを紹介する。
私たちのデータセットは、Flickr8K、COCO、Places205という3つの大きな公開データセットに基づいて構築されています。
その結果,既存のモデルでは,データセットの正確かつ堅牢な検出に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-06-07T12:58:14Z) - Med-MMHL: A Multi-Modal Dataset for Detecting Human- and LLM-Generated
Misinformation in the Medical Domain [14.837495995122598]
Med-MMHLは、複数の疾患を含む一般的な医療領域において、新しいマルチモーダルな誤情報検出データセットである。
本データセットは,各種疾患および各種シナリオにおける誤情報検出手法の総合的な研究・開発を促進することを目的としている。
論文 参考訳(メタデータ) (2023-06-15T05:59:11Z) - DeepfakeArt Challenge: A Benchmark Dataset for Generative AI Art Forgery and Data Poisoning Detection [57.51313366337142]
悪意ある目的のために生成的AIを使用することについて懸念が高まっている。
生成AIを用いた視覚コンテンツ合成の領域では、画像偽造とデータ中毒が重要な関心事となっている。
DeepfakeArt Challenge(ディープフェイクアートチャレンジ)は、AIアートのジェネレーションとデータ中毒検出のための機械学習アルゴリズムの構築を支援するために設計された、大規模なチャレンジベンチマークデータセットである。
論文 参考訳(メタデータ) (2023-06-02T05:11:27Z) - BAND: Biomedical Alert News Dataset [34.277782189514134]
我々は、既存の報道記事、オープンメール、アラートから1,508件のサンプルと30の疫学関連質問を含むBAND(Biomedical Alert News dataset)を紹介した。
BANDデータセットは、NLPの世界に新たな課題をもたらし、コンテンツの偽装能力と重要な情報を推論する能力を必要としている。
われわれの知る限りでは、BANDコーパスはバイオメディカル・アウトブレイク警報のニュースを、精巧にデザインされた質問でまとめる最大のコーパスだ。
論文 参考訳(メタデータ) (2023-05-23T19:21:00Z) - Disinformation in the Online Information Ecosystem: Detection,
Mitigation and Challenges [35.0667998623823]
一般大衆の大多数は、ニュースや新型コロナウイルスの症状などの問題に関する情報など、ソーシャルメディアのプラットフォームに目を向けている。
偽情報検出と緩和の方向には、かなりの研究が進行中である。
新型コロナウイルスの感染拡大に伴う「不名誉」に焦点をあて、オンライン偽情報問題について論じる。
論文 参考訳(メタデータ) (2020-10-18T21:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。