論文の概要: DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.14107v1
- Date: Tue, 20 May 2025 09:14:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.960186
- Title: DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models
- Title(参考訳): diagnosisArena: 大規模言語モデルのためのベンチマーク診断推論
- Authors: Yakun Zhu, Zhongzhen Huang, Linjie Mu, Yutong Huang, Wei Nie, Shaoting Zhang, Pengfei Liu, Xiaofan Zhang,
- Abstract要約: diagnosisArenaは、専門レベルの診断能力の厳格な評価のために設計されたベンチマークである。
診断アリーナは1,113組のセグメンテーション患者と、28の専門専門医からなる。
我々の研究では、最も先進的な推論モデルであるo3-mini、o1、DeepSeek-R1でさえ、それぞれ45.82%、31.09%、17.79%の精度しか達成していないことが明らかになった。
- 参考スコア(独自算出の注目度): 26.08149233125646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of groundbreaking large language models capable of performing complex reasoning tasks holds significant promise for addressing various scientific challenges, including those arising in complex clinical scenarios. To enable their safe and effective deployment in real-world healthcare settings, it is urgently necessary to benchmark the diagnostic capabilities of current models systematically. Given the limitations of existing medical benchmarks in evaluating advanced diagnostic reasoning, we present DiagnosisArena, a comprehensive and challenging benchmark designed to rigorously assess professional-level diagnostic competence. DiagnosisArena consists of 1,113 pairs of segmented patient cases and corresponding diagnoses, spanning 28 medical specialties, deriving from clinical case reports published in 10 top-tier medical journals. The benchmark is developed through a meticulous construction pipeline, involving multiple rounds of screening and review by both AI systems and human experts, with thorough checks conducted to prevent data leakage. Our study reveals that even the most advanced reasoning models, o3-mini, o1, and DeepSeek-R1, achieve only 45.82%, 31.09%, and 17.79% accuracy, respectively. This finding highlights a significant generalization bottleneck in current large language models when faced with clinical diagnostic reasoning challenges. Through DiagnosisArena, we aim to drive further advancements in AIs diagnostic reasoning capabilities, enabling more effective solutions for real-world clinical diagnostic challenges. We provide the benchmark and evaluation tools for further research and development https://github.com/SPIRAL-MED/DiagnosisArena.
- Abstract(参考訳): 複雑な推論タスクを実行することが可能な大きな言語モデルの台頭は、複雑な臨床シナリオで発生するものなど、様々な科学的課題に対処する上で大きな可能性を秘めている。
現実世界の医療環境に安全かつ効果的な展開を可能にするためには、現在のモデルの診断能力を体系的にベンチマークする必要がある。
先進的な診断推論の評価における既存の医療ベンチマークの限界を考慮し,専門レベルの診断能力の厳格な評価を目的とした総合的かつ挑戦的なベンチマークである診断アリーナを提示する。
診断アリーナは1,113対のセグメンテーションされた患者とそれに対応する診断から成り、28の専門分野にまたがる。
このベンチマークは、AIシステムと人間の専門家による複数ラウンドのスクリーニングとレビューを含む、精巧な建設パイプラインを通じて開発されている。
我々の研究では、最も先進的な推論モデルであるo3-mini、o1、DeepSeek-R1でさえ、それぞれ45.82%、31.09%、17.79%の精度しか達成していないことが明らかになった。
この発見は、臨床診断推論の課題に直面した現在の大規模言語モデルにおいて、重要な一般化ボトルネックを浮き彫りにしている。
diagnosisArenaを通じて、我々は、AIの診断推論能力のさらなる進歩を推進し、実際の臨床診断課題に対するより効果的な解決策を可能にすることを目指している。
我々は、さらなる研究・開発のためのベンチマークおよび評価ツール https://github.com/SPIRAL-MED/DiagnosisArena を提供する。
関連論文リスト
- MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。
データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。
我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文 参考訳(メタデータ) (2025-05-16T22:34:36Z) - MSDiagnosis: A Benchmark for Evaluating Large Language Models in Multi-Step Clinical Diagnosis [8.641421154025211]
われわれはMSDiagnosisと呼ばれる中国の臨床診断基準を提案する。
このベンチマークは12の部門から2,225のケースで構成され、一次診断、鑑別診断、最終診断などのタスクをカバーする。
論文 参考訳(メタデータ) (2024-08-19T14:31:57Z) - Beyond Direct Diagnosis: LLM-based Multi-Specialist Agent Consultation
for Automatic Diagnosis [30.943705201552643]
本研究では,潜在的な疾患に対するエージェントの確率分布を適応的に融合させることにより,現実世界の診断過程をモデル化する枠組みを提案する。
提案手法では,パラメータ更新とトレーニング時間を大幅に短縮し,効率と実用性を向上する。
論文 参考訳(メタデータ) (2024-01-29T12:25:30Z) - A Foundational Framework and Methodology for Personalized Early and
Timely Diagnosis [84.6348989654916]
本稿では,早期診断とタイムリー診断のための基礎的枠組みを提案する。
診断過程を概説する決定論的アプローチに基づいている。
機械学習と統計手法を統合し、最適なパーソナライズされた診断経路を推定する。
論文 参考訳(メタデータ) (2023-11-26T14:42:31Z) - Towards the Identifiability and Explainability for Personalized Learner
Modeling: An Inductive Paradigm [36.60917255464867]
本稿では,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく,識別可能な認知診断フレームワークを提案する。
診断精度を損なうことなく,ID-CDFが効果的に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-09-01T07:18:02Z) - Multi-Task Training with In-Domain Language Models for Diagnostic
Reasoning [5.321587036724933]
ドメイン内言語モデルとドメイン外言語モデルの比較分析を行い、マルチタスクと単一タスクトレーニングを比較した。
マルチタスクで臨床訓練を受けた言語モデルは、その一般ドメインよりも大きなマージンで優れていることを実証する。
論文 参考訳(メタデータ) (2023-06-07T15:55:34Z) - Scalable Online Disease Diagnosis via Multi-Model-Fused Actor-Critic
Reinforcement Learning [9.274138493400436]
医療のアドバイスをオンラインで求めている人にとっては、患者と対話して自動的に疾患を診断できるAIベースの対話エージェントが有効な選択肢だ。
これは、強化学習(RL)アプローチを自然解として提案した逐次的特徴(症状)選択と分類の問題として定式化することができる。
生成的アクターネットワークと診断批評家ネットワークから構成されるMMF-AC(Multi-Model-Fused Actor-Critic)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-08T03:06:16Z) - Anytime Diagnosis for Reconfiguration [52.77024349608834]
我々は、いつでも直接診断できるflexdiagを紹介し分析する。
特徴モデルの領域からの構成ベンチマークと自動車領域からの産業構成知識ベースを使用して、性能および診断品質に関するアルゴリズムを評価します。
論文 参考訳(メタデータ) (2021-02-19T11:45:52Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。