論文の概要: WhatsApp Vaccine Discourse (WhaVax): An Expert-Annotated Dataset and Benchmark for Health Misinformation Detection
- arxiv url: http://arxiv.org/abs/2605.12510v1
- Date: Wed, 25 Mar 2026 14:54:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.759321
- Title: WhatsApp Vaccine Discourse (WhaVax): An Expert-Annotated Dataset and Benchmark for Health Misinformation Detection
- Title(参考訳): WhatsApp Vaccine Discourse (WhaVax): 専門家注釈付きデータセットと健康情報検出ベンチマーク
- Authors: Jônatas H. dos Santos, Julio C. S. Reis, Philipe Melo, João F. H. Olivetti, Thales H. Silva, Matheus Gontijo Guimaraes, Glaucio de Souza, Marcos A. Gonçalves, Fabricio Benevenuto, Filipe B. B. Zanovello, Marco A. G. Rodrigues, Cristiano X. Lima,
- Abstract要約: WhaVaxは、複数のパンデミックにまたがるブラジルの大規模な公共グループから収集されたワクチン関連WhatsAppメッセージの、エキスパートによる新しいデータセットである。
WhatsAppの誤情報を詳細に分析し,言語的,構造的,語彙的,時間的,グループレベルのパターンを明らかにした。
また、従来のモデル、微調整された小言語モデル、および現実的なデータ共有制約下でのゼロまたは少数ショットの大規模言語モデルもベンチマークします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce WhaVax, a new expert-annotated dataset of vaccine-related WhatsApp messages collected from large Brazilian public groups spanning multiple pandemic years. The dataset was constructed through a rigorous, carefully designed pipeline that integrates keyword-based data collection, semantic deduplication to remove near-duplicate content, and a multi-stage annotation protocol conducted by medical specialists. This process produced a high-quality gold-standard corpus, characterized by substantial inter-annotator agreement and strong reliability for downstream analysis. Additionally, we provide a detailed characterization of WhatsApp misinformation, revealing distinctive linguistic, structural, lexical, temporal, and group-level patterns, as well as a meaningful layer of ambiguous cases that reflect the complexity of health discourse in private messaging. We also benchmark classical models, fine-tuned Small Language Models, and zero- or few-shot Large Language Models under realistic data-scarcity constraints, demonstrating that strong embeddings and LLM approaches perform competitively, while domain alignment and data availability remain critical factors. This study provides a rare, high-quality resource to support misinformation research and computational modeling in encrypted communication environments.
- Abstract(参考訳): WhaVaxは、複数のパンデミックにまたがるブラジルの大規模な公共グループから収集されたワクチン関連WhatsAppメッセージの、エキスパートによる新しいデータセットである。
このデータセットは、キーワードベースのデータ収集、ほぼ重複したコンテンツを削除するためのセマンティックな重複、医療専門家による多段階のアノテーションプロトコルを統合する、厳格で慎重に設計されたパイプラインによって構築された。
このプロセスは、アノテータ間の相当な合意と下流分析の信頼性を特徴とする高品質な金標準コーパスを生み出した。
さらに、WhatsAppの誤情報を詳細に分析し、言語的、構造的、語彙的、時間的、グループレベルのパターンを明らかにします。
また、従来のモデル、微調整された小言語モデル、ゼロまたは少数ショットの大規模言語モデルを、現実的なデータ共有制約下でベンチマークし、強力な埋め込みとLLMアプローチが競争力を発揮する一方で、ドメインアライメントとデータ可用性が重要な要素であることを示した。
本研究は,暗号化通信環境における誤情報研究と計算モデルを支援するための,希少で高品質な資源を提供する。
関連論文リスト
- DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - Decoding Rarity: Large Language Models in the Diagnosis of Rare Diseases [1.9662978733004604]
大型言語モデル(LLM)は稀な疾患研究を変革する有望な能力を示している。
本稿では,レアな疾患の解析におけるLSMの統合について検討し,重要な進歩と重要な研究を取り上げる。
論文 参考訳(メタデータ) (2025-05-18T15:42:15Z) - Towards Scalable and Cross-Lingual Specialist Language Models for Oncology [4.824906329042275]
汎用大規模モデル(LLM)は、臨床用語、文脈に依存した解釈、マルチモーダルデータ統合といった課題に対処する。
本研究では,教師調律,検索強化生成(RAG),グラフベースの知識統合を組み合わせた,オンコロジー特化,効率的,適応可能なNLPフレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-11T11:34:57Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - HC-LLM: Historical-Constrained Large Language Models for Radiology Report Generation [89.3260120072177]
本稿では,放射線学レポート生成のための歴史制約付き大規模言語モデル (HC-LLM) フレームワークを提案する。
胸部X線写真から経時的特徴と経時的特徴を抽出し,疾患の進行を捉える診断報告を行った。
特に,本手法は,テスト中の履歴データなしでも良好に動作し,他のマルチモーダル大規模モデルにも容易に適用可能である。
論文 参考訳(メタデータ) (2024-12-15T06:04:16Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Prompting Large Language Models for Zero-Shot Clinical Prediction with
Structured Longitudinal Electronic Health Record Data [7.815738943706123]
大規模言語モデル(LLM)は、伝統的に自然言語処理に向いている。
本研究では, GPT-4 などの LLM の EHR データへの適応性について検討する。
EHRデータの長手性、スパース性、知識を注入した性質に対応するため、本研究は特定の特徴を考慮に入れている。
論文 参考訳(メタデータ) (2024-01-25T20:14:50Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Cross-institution text mining to uncover clinical associations: a case
study relating social factors and code status in intensive care medicine [0.27998963147546146]
インテリア・インテリア・インテリア・インスティテュート・インスティテュート・インスティテュート・インスティテュート・インスティテュート・インスティート・インスティート・インスティート・インスティート・インスティート・インスティルト・インスティート・インスティート・インスティート
本研究は, 社会的要因の関連性について検討し, ド・リサミネート/インキュベート・コードを用いて検討した。
論文 参考訳(メタデータ) (2023-01-16T19:04:59Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。