論文の概要: HealthBench Professional: Evaluating Large Language Models on Real Clinician Chats
- arxiv url: http://arxiv.org/abs/2604.27470v1
- Date: Thu, 30 Apr 2026 06:13:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.950636
- Title: HealthBench Professional: Evaluating Large Language Models on Real Clinician Chats
- Title(参考訳): HealthBench Professional: 実際のクリニックチャット上での大規模言語モデルの評価
- Authors: Rebecca Soskin Hicks, Mikhail Trofimov, Dominick Lim, Rahul K. Arora, Foivos Tsimpourlas, Preston Bowman, Michael Sharman, Chi Tong, Kavin Karthik, Arnav Dugar, Akshay Jagadeesh, Khaled Saab, Johannes Heidecke, Ashley Alexander, Nate Gross, Karan Singhal,
- Abstract要約: HealthBench Professionalは、実際のタスクで大きな言語モデルを評価するためのオープンベンチマークである。
それぞれの例には、臨床医のためのChatGPTとの医師による会話が含まれている。
最も優れたスコアシステムであるGPT-5.4は、臨床医のためのChatGPTで、ベースであるGPT-5.4、他のすべてのモデル、および人間の医師より優れている。
- 参考スコア(独自算出の注目度): 3.9216944925903863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Millions of clinicians use ChatGPT to support clinical care, but evaluations of the most common use cases in model-clinician conversations are limited. We introduce HealthBench Professional, an open benchmark for evaluating large language models on real tasks that clinicians bring to ChatGPT in the course of their work. The benchmark is organized around three common use cases central to clinical practice: care consult, writing and documentation, and medical research. Each example includes a physician-authored conversation with ChatGPT for Clinicians and is scored via rubrics written and iteratively adjudicated by three or more physicians across three phases. HealthBench Professional examples were carefully selected for quality, representativeness, and difficulty for OpenAI's current frontier models, to enable continued measurement of progress. Difficult examples for recent OpenAI models were enriched by roughly 3.5 times relative to the candidate pool of 15,079 examples. Additionally, about one-third of examples involve physicians conducting deliberate adversarial testing of models. As a strong baseline, we also collected human physician responses for all tasks (unbounded time, specialist-matched, web access). The best scoring system, GPT-5.4 in ChatGPT for Clinicians, outperforms base GPT-5.4, all other models, and human physicians. We hope HealthBench Professional provides the healthcare AI community a measure to track frontier model progress in real-world clinical tasks and build systems that clinicians can trust to improve care.
- Abstract(参考訳): 数百万人の臨床医がChatGPTを使用して臨床ケアを行っているが、モデル・クリニック会話における最も一般的なユースケースの評価は限られている。
臨床医がChatGPTにもたらす実際のタスクにおいて、大きな言語モデルを評価するためのオープンベンチマークであるHealthBench Professionalを紹介します。
このベンチマークは、ケアコンサルティング、文書作成、医療研究の3つの一般的なユースケースを中心に構成されている。
それぞれの例には、臨床医のためのChatGPTと医師によって書かれた会話が含まれており、3つの段階にわたって3人以上の医師によって反復的に書かれた筆記書によって採点される。
HealthBench Professionalの例は、継続的な進捗測定を可能にするために、OpenAIの現在のフロンティアモデルの品質、代表性、難易度のために慎重に選択された。
最近のOpenAIモデルの難易度は15,079の候補プールと比較して約3.5倍に向上した。
さらに、およそ3分の1の例では、医師が故意にモデルの敵対的なテストを行う。
強力なベースラインとして、すべてのタスク(無制限時間、専門家対応、Webアクセス)に対して、人間の医師の回答を収集しました。
最も優れたスコアシステムであるGPT-5.4は、臨床医のためのChatGPTで、ベースであるGPT-5.4、他のすべてのモデル、および人間の医師より優れている。
私たちはHealthBench Professionalが医療AIコミュニティに、現実の臨床的タスクにおけるフロンティアモデルの進歩を追跡する手段を提供し、臨床医がケアを改善するために信頼できるシステムを構築することを望んでいる。
関連論文リスト
- MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences [50.71326426975699]
MedArenaは医療用大規模言語モデル(LLM)のためのインタラクティブな評価プラットフォームである。
MedArenaは、2つのランダムに選択されたモデルからの応答を表示し、ユーザが好みのレスポンスを選択するように要求する。
2025年11月1日までに12台のLLMで収集された1571の選好のうち、ジェミニ2.0フラッシュシンキング、ジェミニ2.5プロ、GPT-4oがブラッドリー・テリーのレーティングで上位3モデルとなった。
論文 参考訳(メタデータ) (2026-03-13T22:30:26Z) - Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks [1.2773749417703923]
ジェネラリストモデルは一貫して臨床ツールより優れていた。
OpenEvidenceとUpToDate Expert AIは、完全性、コミュニケーション品質、コンテキスト認識、システムベースの安全性推論の欠陥を実証した。
論文 参考訳(メタデータ) (2025-12-01T02:14:43Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。
患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T17:44:40Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - NoteChat: A Dataset of Synthetic Doctor-Patient Conversations Conditioned on Clinical Notes [17.293865946903217]
NoteChatは、Large Language Models (LLMs)を活用して、患者と物理学者の対話を生成する新しい協調型マルチエージェントフレームワークである。
NoteChatは、臨床ノートに基づいた優れた合成患者と物理学の対話を生成する際に、ドメインの専門家によって、ChatGPTやGPT-4のような最先端のモデルを22.78%まで大幅に上回っている。
論文 参考訳(メタデータ) (2023-10-24T15:59:43Z) - MedGPTEval: A Dataset and Benchmark to Evaluate Responses of Large
Language Models in Medicine [16.75133391080187]
総合的な文献レビューに基づいて評価基準のセットを設計する。
既存の候補基準は、医学と工学の専門家5名によるデルファイ法の使用に最適化されている。
3つのチャットボットが評価され、OpenAIのChatGPT、BaiduのERNIEボット、上海人工知能研究所のDr. PuJiang(Dr.PJ)が評価されている。
論文 参考訳(メタデータ) (2023-05-12T09:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。