論文の概要: MedFact: Benchmarking the Fact-Checking Capabilities of Large Language Models on Chinese Medical Texts
- arxiv url: http://arxiv.org/abs/2509.12440v1
- Date: Mon, 15 Sep 2025 20:46:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.7581
- Title: MedFact: Benchmarking the Fact-Checking Capabilities of Large Language Models on Chinese Medical Texts
- Title(参考訳): MedFact:中国医学テキストにおける大規模言語モデルのFact-Checking能力のベンチマーク
- Authors: Jiayi He, Yangmin Huang, Qianyun Du, Xiangying Zhou, Zhiyang He, Jiaxue Hu, Xiaodong Tao, Lixian Lai,
- Abstract要約: 中国の医療ファクトチェックのための新しいベンチマークであるMedFactを紹介する。
さまざまな現実世界のテキストからキュレートされた2,116のエキスパートアノテーション付きインスタンスで構成されている。
専門家のフィードバックによってAI駆動のマルチ基準フィルタリングプロセスが洗練される、ハイブリッドAI-ヒューマンフレームワークを採用している。
- 参考スコア(独自算出の注目度): 4.809421212365958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing deployment of Large Language Models (LLMs) in healthcare necessitates a rigorous evaluation of their factual reliability. However, existing benchmarks are often limited by narrow domains of data, failing to capture the complexity of real-world medical information. To address this critical gap, we introduce MedFact, a new and challenging benchmark for Chinese medical fact-checking. MedFact comprises 2,116 expert-annotated instances curated from diverse real-world texts, spanning 13 medical specialties, 8 fine-grained error types, 4 writing styles, and multiple difficulty levels. Its construction employs a hybrid AI-human framework where iterative expert feedback refines an AI-driven, multi-criteria filtering process, ensuring both high data quality and difficulty. We conduct a comprehensive evaluation of 20 leading LLMs, benchmarking their performance on veracity classification and error localization against a human expert baseline. Our results reveal that while models can often determine if a text contains an error, precisely localizing it remains a substantial challenge, with even top-performing models falling short of human performance. Furthermore, our analysis uncovers a frequent ``over-criticism'' phenomenon, a tendency for models to misidentify correct information as erroneous, which is exacerbated by advanced reasoning techniques such as multi-agent collaboration and inference-time scaling. By highlighting these critical challenges for deploying LLMs in medical applications, MedFact provides a robust resource to drive the development of more factually reliable and medically aware models.
- Abstract(参考訳): 医療におけるLarge Language Models(LLM)の展開の増加は、その事実の信頼性を厳格に評価する必要がある。
しかし、既存のベンチマークは、しばしば限られたデータ領域によって制限され、現実世界の医療情報の複雑さを捉えることができない。
この重要なギャップに対処するため、我々は中国の医療ファクトチェックのための新しい挑戦的なベンチマークであるMedFactを紹介した。
MedFactは、さまざまな現実世界のテキストからキュレーションされた2,116のエキスパートアノテーション付きインスタンスで構成され、13の専門医、8のきめ細かいエラータイプ、4の書き込みスタイル、複数の困難レベルで構成されている。
その構造はAIと人間のハイブリッドなフレームワークを採用しており、反復的な専門家のフィードバックはAI駆動のマルチクレータフィルタリングプロセスを洗練し、高いデータ品質と難易度の両方を保証する。
我々は20個のLLMの総合的な評価を行い、その性能を人間の専門家ベースラインに対する精度分類と誤り位置化にベンチマークする。
結果から,テキストが誤りを含むかどうかを判断できる場合が多いが,精度の高いローカライズは依然として大きな課題であり,高い性能のモデルでさえ人間のパフォーマンスに欠けることがわかった。
さらに,複数エージェントの協調や推論時間スケーリングといった高度な推論手法により,モデルが正しい情報を誤識別する傾向である「過剰批判」現象を明らかにした。
医療アプリケーションにLLMをデプロイする上で、これらの重要な課題を強調することで、MedFactは、より現実的に信頼性が高く、医療的に認識されたモデルの開発を促進するための堅牢なリソースを提供する。
関連論文リスト
- MedMKEB: A Comprehensive Knowledge Editing Benchmark for Medical Multimodal Large Language Models [5.253788190589279]
MedMKEBは,知識編集の信頼性,汎用性,局所性,可搬性,堅牢性を評価するために設計された,最初の総合的なベンチマークである。
MedMKEBは高品質な医用視覚質問応答データセット上に構築されており、慎重に構築された編集タスクに富んでいる。
ベンチマークの精度と信頼性を確保するために、人間の専門家による検証を組み込んだ。
論文 参考訳(メタデータ) (2025-08-07T07:09:26Z) - Towards Domain Specification of Embedding Models in Medicine [1.0713888959520208]
MTEB(Massive Text Embedding Benchmark)に基づく分類,クラスタリング,ペア分類,検索を対象とする51タスクの総合ベンチマークスイートを提案する。
以上の結果から,本手法はロバストな評価枠組みを確立し,各タスクにおける工芸品の代替品の状態を常に上回り,組込み性能が向上することを示した。
論文 参考訳(メタデータ) (2025-07-25T16:15:00Z) - MIRA: A Novel Framework for Fusing Modalities in Medical RAG [6.044279952668295]
MLLMにおける実測精度の最適化を目的としたMIRA(Multimodal Intelligent Retrieval and Augmentation)フレームワークを提案する。
MIRAは,(1)検索コンテキスト数を動的に調整して事実リスクを管理する校正再考・再配置モジュール,(2)画像埋め込みと医用知識ベースを統合した医用RAGフレームワークと,効率的なマルチモーダル推論を行うクエリ・リライトモジュールの2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2025-07-10T16:33:50Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models [35.60385437194243]
現在の医療用大規模視覚言語モデル(Med-LVLM)は、しばしば現実の問題に遭遇する。
外部知識を利用するRAGは、これらのモデルの現実的精度を向上させることができるが、2つの大きな課題を提起する。
本稿では,2つのコンポーネントからなるRULEを提案する。まず,検索したコンテキストの選択を通じて事実性リスクを制御するための有効な戦略を提案する。
次に、検索したコンテキストへの過度な依存がエラーを引き起こしたサンプルに基づいて、選好データセットをキュレートしてモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-06T16:45:07Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。