論文の概要: OpenAIs HealthBench in Action: Evaluating an LLM-Based Medical Assistant on Realistic Clinical Queries
- arxiv url: http://arxiv.org/abs/2509.02594v1
- Date: Fri, 29 Aug 2025 09:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.23762
- Title: OpenAIs HealthBench in Action: Evaluating an LLM-Based Medical Assistant on Realistic Clinical Queries
- Title(参考訳): OpenAIs HealthBench in Action: Realistic Clinical QueriesにおけるLCMベースの医療アシスタントの評価
- Authors: Sandhanakrishnan Ravichandran, Shivesh Kumar, Rogerio Corga Da Silva, Miguel Romano, Reinhard Berkels, Michiel van der Heijden, Olivier Fail, Valentine Emmanuel Gnanapragasam,
- Abstract要約: われわれはHealthBenchを用いてRAGをベースとした臨床サポートアシスタントDR.INFOを評価した。
1000の挑戦的な例のハードサブセットでは、DR.INFOはHealthBenchスコア0.51を達成している。
同様のエージェントRAGアシスタントに対する100サンプルの別評価では、ヘルスベンチスコア0.54のパフォーマンスリードを維持している。
- 参考スコア(独自算出の注目度): 2.2807344448218507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating large language models (LLMs) on their ability to generate high-quality, accurate, situationally aware answers to clinical questions requires going beyond conventional benchmarks to assess how these systems behave in complex, high-stake clincal scenarios. Traditional evaluations are often limited to multiple-choice questions that fail to capture essential competencies such as contextual reasoning, awareness and uncertainty handling etc. To address these limitations, we evaluate our agentic, RAG-based clinical support assistant, DR.INFO, using HealthBench, a rubric-driven benchmark composed of open-ended, expert-annotated health conversations. On the Hard subset of 1,000 challenging examples, DR.INFO achieves a HealthBench score of 0.51, substantially outperforming leading frontier LLMs (GPT-5, o3, Grok 3, GPT-4, Gemini 2.5, etc.) across all behavioral axes (accuracy, completeness, instruction following, etc.). In a separate 100-sample evaluation against similar agentic RAG assistants (OpenEvidence, Pathway.md), it maintains a performance lead with a health-bench score of 0.54. These results highlight DR.INFOs strengths in communication, instruction following, and accuracy, while also revealing areas for improvement in context awareness and completeness of a response. Overall, the findings underscore the utility of behavior-level, rubric-based evaluation for building a reliable and trustworthy AI-enabled clinical support assistant.
- Abstract(参考訳): 臨床問題に対する高品質で正確で状況に敏感な回答を生成する能力に対して、大規模言語モデル(LLM)を評価するには、これらのシステムが複雑で高リスクなシナリオでどのように振る舞うかを評価するために、従来のベンチマークを超える必要がある。
従来の評価は、文脈的推論や認識、不確実性処理といった重要な能力の獲得に失敗する複数の選択の問題に限られることが多い。
これらの制約に対処するために、オープンエンドで専門家が注釈を付けた健康会話からなるルーリック駆動型ベンチマークであるHealthBenchを用いて、RAGベースの臨床サポートアシスタントDR.INFOを評価した。
1000の挑戦的な例のハードサブセットでは、DR.INFOはHealthBenchスコア0.51を達成し、すべての行動軸(正確性、完全性、命令従順性など)でリードフロンティアLLM(GPT-5、o3、Grok 3, GPT-4、Gemini 2.5など)を大幅に上回っている。
同様のエージェントRAGアシスタント(OpenEvidence、Pathway.md)に対する100サンプルの評価では、ヘルスベンチスコアが0.54である。
これらの結果は,コミュニケーションにおけるDR.INFOsの強み,指示追従,精度を強調し,文脈認識の改善と応答の完全性を明らかにする。
全体として、この結果は、信頼性が高く信頼性の高いAI対応臨床支援アシスタントを構築するための行動レベル、ルーブリックに基づく評価の有用性を強調している。
関連論文リスト
- Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - ASTRID -- An Automated and Scalable TRIaD for the Evaluation of RAG-based Clinical Question Answering Systems [0.0]
大言語モデル (LLMs) は, 臨床質問応答において有意な潜在性を示した。
RAGは、モデル応答の事実的正確性を保証するための主要なアプローチとして現れています。
現在のRAG自動測定は、臨床および会話のユースケースでは不十分である。
論文 参考訳(メタデータ) (2025-01-14T15:46:39Z) - Hierarchical Divide-and-Conquer for Fine-Grained Alignment in LLM-Based Medical Evaluation [31.061600616994145]
HDCEvalは、専門医とのコラボレーションによって開発された、きめ細かい医療評価ガイドラインに基づいて構築されている。
このフレームワークは複雑な評価タスクを専門的なサブタスクに分解し、それぞれがエキスパートモデルによって評価される。
この階層的なアプローチは、評価の各側面が専門家の精度で扱われることを保証する。
論文 参考訳(メタデータ) (2025-01-12T07:30:49Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。