論文の概要: GlobalDentBench: A Multinational Benchmark for Evaluating LLM Clinical Reasoning in Dentistry with Expert Calibration
- arxiv url: http://arxiv.org/abs/2605.24636v1
- Date: Sat, 23 May 2026 15:53:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.287844
- Title: GlobalDentBench: A Multinational Benchmark for Evaluating LLM Clinical Reasoning in Dentistry with Expert Calibration
- Title(参考訳): GlobalDentBench: 専門的校正を伴う歯科におけるLCM臨床推論の評価のための多国間ベンチマーク
- Authors: Junjie Zhao, Jingyi Liang, Zhenyang Cai, Jiaming Zhang, Zhenwei Wen, Shuzhi Deng, Wenjing Yi, Chunfeng Luo, Hexian Zhang, Junying Chen, Tianrui Liu, Zhuhui Bai, Zixu Zhang, Pradeep Singh, Xiang Liu, Jianquan Li, Nhan L Tran, Falk Schwendicke, Zuolin Jin, Lijian Jin, Liangyi Chen, Wei-fa Yang, Benyou Wang, Junwen Wang, Shan Jiang,
- Abstract要約: 大規模言語モデル(LLMs)は医学の変革的な可能性を持っているが、実際の臨床シナリオにおけるそれらの推論の堅牢性や安全性は、特に歯科医学において非常に過小評価されている。
ここでは、88か国と6大陸にまたがる14の歯科専門分野を含む分類を特徴とする、最初の多国籍歯科用ベンチマークであるGlobalDentBenchを紹介する。
ベンチマークは3つのフォーマット(複数選択、短い回答、ケースベースの質問)にまたがる8,978のエキスパート検証された質問で構成され、3つのプログレッシブな推論レベルを評価する。
- 参考スコア(独自算出の注目度): 35.3851755931076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) hold transformative potential for medicine, their reasoning robustness and safety in real-world clinical scenarios remain critically underexplored, particularly in dentistry. Here we introduce GlobalDentBench, the first multinational dental benchmark, featuring a taxonomy that encompasses 14 dental specialties across 88 countries and regions spanning six continents. The benchmark comprises 8,978 expert-validated questions across three formats (multiple-choice, short-answer, and case-based questions) and assesses three progressive reasoning levels: knowledge recall (L1), routine reasoning (L2), and individualized reasoning (L3). To ensure data quality, the automated construction framework was calibrated by six senior dentists, achieving expert agreement rates of 99.98% for multiple-choice and short-answer questions and 96.78% for the more complex case-based questions. Evaluation of 12 frontier LLMs on GlobalDentBench revealed a sharp, stepwise performance degradation with increasing reasoning complexity. Specifically, accuracy plummeted from 81.34% on multiple-choice to 64.53% on short-answer and 22.34% on case-based questions, while declining markedly from 74.01% at L1 to 55.64% at L2 and 35.71% at L3. More critically, risk analysis of real-world dental cases demonstrated an alarming overall unsafe rate of 31.01% in LLM-generated clinical recommendations, with 4.51% posing risks of irreversible patient harm and risks particularly pronounced in specialties such as orthodontics. These findings expose fundamental limitations in the medical reasoning and safety of current LLMs. Consequently, GlobalDentBench provides a scalable foundation for trustworthy clinical AI evaluation, underscoring the urgent need for rigorous validation before the safe deployment of these models in healthcare.
- Abstract(参考訳): 大きな言語モデル (LLMs) は医学の変革的な可能性を持っているが、実際の臨床シナリオにおける彼らの推論の堅牢性と安全性は、特に歯科医学において、非常に過小評価されている。
ここでは、88か国と6大陸にまたがる14の歯科専門分野を含む分類を特徴とする、最初の多国籍歯科用ベンチマークであるGlobalDentBenchを紹介する。
このベンチマークは、3つのフォーマット(複数選択、短問答、ケースベース質問)にまたがる8,978のエキスパート検証された質問からなり、知識リコール(L1)、ルーチン推論(L2)、個別推論(L3)の3つのプログレッシブ推論レベルを評価する。
データ品質を確保するために、6人の歯科医が自動構築フレームワークを校正し、複数の選択と短問に対して99.98%、より複雑なケースベースの質問に対して96.78%の専門家合意率を達成した。
GlobalDentBench上での12個のフロンティアLCMの評価により, 推理複雑性が増大し, 段階的に性能劣化が認められた。
具体的には、マルチチョイスで81.34%、短問で64.53%、ケースベースの質問で22.34%、L1で74.01%、L2で55.64%、L3で35.71%と顕著に低下した。
より重要なことに、現実の歯科症例のリスク分析では、LSMを作成した臨床勧告では、安全でない全体の31.01%が警告され、4.51%が可逆的な患者の危害のリスク、特に矯正治療のような専門分野において顕著なリスクを呈していた。
これらの知見は,現在のLSMの医学的推論と安全性の基本的な限界を明らかにしている。
その結果、GlobalDentBenchは信頼できる臨床AI評価のためのスケーラブルな基盤を提供し、これらのモデルを医療に安全にデプロイする前に厳格な検証が必要であることを強調している。
関連論文リスト
- A Decade-Scale Benchmark Evaluating LLMs' Clinical Practice Guidelines Detection and Adherence in Multi-turn Conversations [60.2076951536797]
大規模言語モデル(LLM)は、医療シナリオにますます多くデプロイされている。
LLMが会話中に臨床ガイドラインを特定・遵守できるのかは不明確である。
CPGBenchは、LSMの臨床ガイドラインの検出と付着能力をベンチマークする自動フレームワークである。
論文 参考訳(メタデータ) (2026-03-26T09:00:55Z) - PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - A Novel Evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains [15.73821689524201]
大言語モデル (LLMs) は臨床決定支援において有望であるが、安全性評価と有効性検証において大きな課題に直面している。
臨床専門家のコンセンサスに基づく多次元フレームワークであるCSEDBを開発した。
13名の専門医が, 現実のシナリオをシミュレートする26の臨床部門にまたがって, 2,069件のオープンエンドQ&A項目を作成した。
論文 参考訳(メタデータ) (2025-07-31T12:10:00Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。