論文の概要: Monant Medical Misinformation Dataset: Mapping Articles to Fact-Checked
Claims
- arxiv url: http://arxiv.org/abs/2204.12294v1
- Date: Tue, 26 Apr 2022 13:18:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 13:09:35.787963
- Title: Monant Medical Misinformation Dataset: Mapping Articles to Fact-Checked
Claims
- Title(参考訳): Monant Medical Misinformation Dataset: 記事をFact-Checked Claimsにマッピングする
- Authors: Ivan Srba, Branislav Pecher, Matus Tomlein, Robert Moro, Elena
Stefancova, Jakub Simko, Maria Bielikova
- Abstract要約: 317kの医療ニュース記事/ブログと3.5kのファクトチェッククレームの特徴豊富なデータセットを公開しています。
また、手動で533件、クレームと記事のマッピングを51万件以上自動的にラベル付けしている。
このデータセットは、誤情報特徴化研究やソース間の誤情報拡散の研究など、医療的誤情報に関連する多くのタスクを可能にする。
- 参考スコア(独自算出の注目度): 0.6927055673104934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: False information has a significant negative influence on individuals as well
as on the whole society. Especially in the current COVID-19 era, we witness an
unprecedented growth of medical misinformation. To help tackle this problem
with machine learning approaches, we are publishing a feature-rich dataset of
approx. 317k medical news articles/blogs and 3.5k fact-checked claims. It also
contains 573 manually and more than 51k automatically labelled mappings between
claims and articles. Mappings consist of claim presence, i.e., whether a claim
is contained in a given article, and article stance towards the claim. We
provide several baselines for these two tasks and evaluate them on the manually
labelled part of the dataset. The dataset enables a number of additional tasks
related to medical misinformation, such as misinformation characterisation
studies or studies of misinformation diffusion between sources.
- Abstract(参考訳): 偽情報は、社会全体だけでなく個人にも顕著な悪影響を及ぼす。
特に現在の新型コロナウイルス(COVID-19)時代には、医療上の誤報が前例のない成長を遂げている。
機械学習のアプローチでこの問題に取り組むために、私たちは、おおよその機能豊富なデータセットを公開しています。
317kの医療ニュース記事/ブログ、3.5kの事実確認クレーム。
また、手作業で573個、クレームと記事のマッピングに51k以上のラベルを付けている。
マッピングは,クレームの存在,すなわち,クレームが所定の記事に含まれるか否か,及びクレームに対する記事のスタンスから構成される。
これら2つのタスクのベースラインを提供し、データセットのラベル付けされた部分で評価する。
このデータセットは、誤情報の特徴化研究やソース間の誤情報の拡散の研究など、医療的誤情報の多くの追加タスクを可能にする。
関連論文リスト
- Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - Missci: Reconstructing Fallacies in Misrepresented Science [84.32990746227385]
ソーシャルネットワーク上の健康関連の誤報は、意思決定の貧弱さと現実世界の危険につながる可能性がある。
ミスシは、誤った推論のための新しい議論理論モデルである。
大規模言語モデルの批判的推論能力をテストするためのデータセットとしてMissciを提案する。
論文 参考訳(メタデータ) (2024-06-05T12:11:10Z) - AMIR: Automated MisInformation Rebuttal -- A COVID-19 Vaccination Datasets based Recommendation System [0.05461938536945722]
本研究は,ソーシャルメディアから得られる既存の情報を活用して,大規模な誤報の自動報知を容易にする方法について検討した。
FaCov(ファクトチェック記事)と誤解を招く(ソーシャルメディアTwitter)という、新型コロナウイルスワクチンに関する2つの公開データセットを活用している。
論文 参考訳(メタデータ) (2023-10-29T13:07:33Z) - Lost in Translation -- Multilingual Misinformation and its Evolution [52.07628580627591]
本稿では,95言語にまたがる25万以上のファクトチェックの分析を通じて,多言語誤報の頻度とダイナミクスについて検討する。
誤報のクレームの大部分は1回だけ事実チェックされているが、21,000件以上のクレームに対応する11.7%は複数回チェックされている。
誤情報拡散のプロキシとしてファクトチェックを用いると、言語境界を越えて繰り返し主張する主張の33%が見つかる。
論文 参考訳(メタデータ) (2023-10-27T12:21:55Z) - Med-MMHL: A Multi-Modal Dataset for Detecting Human- and LLM-Generated
Misinformation in the Medical Domain [14.837495995122598]
Med-MMHLは、複数の疾患を含む一般的な医療領域において、新しいマルチモーダルな誤情報検出データセットである。
本データセットは,各種疾患および各種シナリオにおける誤情報検出手法の総合的な研究・開発を促進することを目的としている。
論文 参考訳(メタデータ) (2023-06-15T05:59:11Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Empowering the Fact-checkers! Automatic Identification of Claim Spans on
Twitter [25.944789217337338]
Claim Span Identification (CSI) は、投稿に存在するクレーム価値(ミス)情報スニペットを自動的に識別し、抽出するツールである。
トークンレベルのクレームを7.5k以上のツイートに分散した大規模TwitterコーパスであるCURTを提案する。
我々は、RoBERTaのアダプタベースのバリエーションであるDABERTaでデータセットをベンチマークする。
論文 参考訳(メタデータ) (2022-10-10T14:08:46Z) - CoVERT: A Corpus of Fact-checked Biomedical COVID-19 Tweets [10.536415845097661]
CoVERTは事実確認されたツイートのコーパスで、バイオメディシンと新型コロナウイルス関連の情報(ミス)に焦点を当てている。
我々は、新しいクラウドソーシング手法を用いて、すべてのツイートにファクトチェックラベルを付加し、クラウドワーカーがオンラインで検索する証拠を支持する。
得られたエビデンス抽出をファクトチェックパイプラインの一部として使用し、実世界のエビデンスの方が、事前訓練された言語モデルで間接的に利用できる知識よりも有用であることを確認した。
論文 参考訳(メタデータ) (2022-04-26T09:05:03Z) - FaVIQ: FAct Verification from Information-seeking Questions [77.7067957445298]
実ユーザによる情報探索質問を用いて,ファVIQと呼ばれる大規模事実検証データセットを構築した。
我々の主張は自然であると証明され、語彙バイアスがほとんどなく、検証の証拠を完全に理解する必要がある。
論文 参考訳(メタデータ) (2021-07-05T17:31:44Z) - Claim Detection in Biomedical Twitter Posts [11.335643770130238]
生体医学に関する誤った情報は特に危険である。
我々は、この研究ギャップを埋め、暗黙的かつ明示的なバイオメディカルクレームのために1200ツイートのコーパスに注釈を付けることを目指している。
クレームを含むツイートを自動的に検出するベースラインモデルを開発。
論文 参考訳(メタデータ) (2021-04-23T14:45:31Z) - Misinformation Has High Perplexity [55.47422012881148]
疑似クレームを教師なしの方法でデバンクするために, 難易度を活用することを提案する。
まず,これらの主張に類似した文に基づいて,科学的およびニュースソースから信頼性のある証拠を抽出する。
第2に,抽出したエビデンスを言語モデルにプライマリし,難易度スコアに基づいて与えられたクレームの正当性を評価する。
論文 参考訳(メタデータ) (2020-06-08T15:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。