論文の概要: MedFact: A Large-scale Chinese Dataset for Evidence-based Medical Fact-checking of LLM Responses
- arxiv url: http://arxiv.org/abs/2509.17436v1
- Date: Mon, 22 Sep 2025 07:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.265665
- Title: MedFact: A Large-scale Chinese Dataset for Evidence-based Medical Fact-checking of LLM Responses
- Title(参考訳): MedFact: LLM応答の医療ファクトチェックのための大規模中国データセット
- Authors: Tong Chen, Zimu Wang, Yiyi Miao, Haoran Luo, Yuanfei Sun, Wei Wang, Zhengyong Jiang, Procheta Sen, Jionglong Su,
- Abstract要約: MedFactは、大規模な言語モデル(LLM)が生成する医療コンテンツの、最初の証拠に基づく中国の医療ファクトチェックデータセットである。
1,321の質問と7,409のクレームで構成され、現実世界の医療シナリオの複雑さを反映している。
- 参考スコア(独自算出の注目度): 15.147733422773777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical fact-checking has become increasingly critical as more individuals seek medical information online. However, existing datasets predominantly focus on human-generated content, leaving the verification of content generated by large language models (LLMs) relatively unexplored. To address this gap, we introduce MedFact, the first evidence-based Chinese medical fact-checking dataset of LLM-generated medical content. It consists of 1,321 questions and 7,409 claims, mirroring the complexities of real-world medical scenarios. We conduct comprehensive experiments in both in-context learning (ICL) and fine-tuning settings, showcasing the capability and challenges of current LLMs on this task, accompanied by an in-depth error analysis to point out key directions for future research. Our dataset is publicly available at https://github.com/AshleyChenNLP/MedFact.
- Abstract(参考訳): オンラインで医療情報を求める個人が増えるにつれて、医療ファクトチェックはますます重要になっている。
しかし、既存のデータセットは主に人為的なコンテンツに焦点を当てており、大きな言語モデル(LLM)によって生成されるコンテンツの検証は比較的未調査のままである。
このギャップに対処するため,我々は,LCM生成医療コンテンツの中国初の医療ファクトチェックデータセットであるMedFactを紹介した。
1,321の質問と7,409のクレームで構成され、現実世界の医療シナリオの複雑さを反映している。
本研究は,テキスト内学習(ICL)と微調整設定の両方において総合的な実験を行い,この課題における現在のLLMの能力と課題を示す。
私たちのデータセットはhttps://github.com/AshleyChenNLP/MedFact.comで公開されています。
関連論文リスト
- Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - Don't Ignore Dual Logic Ability of LLMs while Privatizing: A
Data-Intensive Analysis in Medical Domain [19.46334739319516]
本研究では, LLMの二重論理能力が, 医療領域の民営化過程における影響について検討した。
以上の結果から,LLMに汎用ドメイン二重論理データを組み込むことによって,LLMの二重論理能力が向上するだけでなく,精度も向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-08T08:20:46Z) - Med-HALT: Medical Domain Hallucination Test for Large Language Models [0.0]
本研究では,大規模言語モデル(LLM)における幻覚による課題に焦点を当てた。
我々は,幻覚の評価と低減を目的とした新しいベンチマークとデータセット,Med-HALT (Medical Domain Hallucination Test) を提案する。
論文 参考訳(メタデータ) (2023-07-28T06:43:04Z) - Med-MMHL: A Multi-Modal Dataset for Detecting Human- and LLM-Generated
Misinformation in the Medical Domain [14.837495995122598]
Med-MMHLは、複数の疾患を含む一般的な医療領域において、新しいマルチモーダルな誤情報検出データセットである。
本データセットは,各種疾患および各種シナリオにおける誤情報検出手法の総合的な研究・開発を促進することを目的としている。
論文 参考訳(メタデータ) (2023-06-15T05:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。