論文の概要: HealthBench: Evaluating Large Language Models Towards Improved Human Health
- arxiv url: http://arxiv.org/abs/2505.08775v1
- Date: Tue, 13 May 2025 17:53:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.700099
- Title: HealthBench: Evaluating Large Language Models Towards Improved Human Health
- Title(参考訳): HealthBench: 人間の健康改善に向けた大規模言語モデルの評価
- Authors: Rahul K. Arora, Jason Wei, Rebecca Soskin Hicks, Preston Bowman, Joaquin Quiñonero-Candela, Foivos Tsimpourlas, Michael Sharman, Meghan Shah, Andrea Vallone, Alex Beutel, Johannes Heidecke, Karan Singhal,
- Abstract要約: HealthBenchは、モデルと個人ユーザーまたは医療専門家の間の5000のマルチターン会話で構成されている。
262名の医師が作成した対話型ルーブリックを用いて応答を評価した。
- 参考スコア(独自算出の注目度): 23.316422455713735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present HealthBench, an open-source benchmark measuring the performance and safety of large language models in healthcare. HealthBench consists of 5,000 multi-turn conversations between a model and an individual user or healthcare professional. Responses are evaluated using conversation-specific rubrics created by 262 physicians. Unlike previous multiple-choice or short-answer benchmarks, HealthBench enables realistic, open-ended evaluation through 48,562 unique rubric criteria spanning several health contexts (e.g., emergencies, transforming clinical data, global health) and behavioral dimensions (e.g., accuracy, instruction following, communication). HealthBench performance over the last two years reflects steady initial progress (compare GPT-3.5 Turbo's 16% to GPT-4o's 32%) and more rapid recent improvements (o3 scores 60%). Smaller models have especially improved: GPT-4.1 nano outperforms GPT-4o and is 25 times cheaper. We additionally release two HealthBench variations: HealthBench Consensus, which includes 34 particularly important dimensions of model behavior validated via physician consensus, and HealthBench Hard, where the current top score is 32%. We hope that HealthBench grounds progress towards model development and applications that benefit human health.
- Abstract(参考訳): ヘルスケアにおける大規模言語モデルの性能と安全性を計測するオープンソースのベンチマークであるHealthBenchを紹介します。
HealthBenchは、モデルと個人ユーザーまたは医療専門家の間の5000のマルチターン会話で構成されている。
262名の医師が作成した対話型ルーブリックを用いて応答を評価した。
以前の複数選択または短問合せベンチマークとは異なり、HealthBenchは、いくつかの健康状況(例えば、緊急性、臨床データ変換、グローバルヘルス)と行動次元(例えば、正確性、指示従順、コミュニケーション)にまたがる48,562のユニークなルーリック基準を通じて、現実的に、オープンな評価を可能にする。
過去2年間のHealthBenchのパフォーマンスは、安定した初期進歩(GPT-3.5ターボの16%からGPT-4oの32%)と、より急激な改善(o3スコアは60%)を反映している。
小型モデルは特に改善されており、GPT-4.1ナノはGPT-4oより25倍安価である。
HealthBench Consensusは、医師のコンセンサスによって検証されたモデル行動の重要な次元を34つ含み、HealthBench Hardは32%である。
私たちはHealthBenchが、人間の健康に役立つモデル開発と応用に向けて前進することを願っている。
関連論文リスト
- Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks [17.40940406100025]
私たちは、70億から700億のパラメータからなる、医療AIシステムの新しいファミリーであるMeerkatを紹介します。
我々のシステムは6つの医療ベンチマークで顕著な精度を達成した。
Meerkat-70Bは38例中21例を正しく診断し、ヒトの13.8例を上回った。
論文 参考訳(メタデータ) (2024-03-30T14:09:00Z) - The Last JITAI? Exploring Large Language Models for Issuing Just-in-Time Adaptive Interventions: Fostering Physical Activity in a Conceptual Cardiac Rehabilitation Setting [17.11253030181912]
デジタルヘルスにおけるジャスト・イン・タイム・アダプティブ・インターベンション(JITAI)の内容のトリガーおよびパーソナライズにLarge Language Models (LLMs) を用いることの有効性を検討した。
GPT-4生成JITAIは人為的な介入提案を上回っ、すべての指標でLayPsとHCPsを上回った。
論文 参考訳(メタデータ) (2024-02-13T18:39:36Z) - Health-LLM: Large Language Models for Health Prediction via Wearable Sensor Data [43.48422400822597]
大規模言語モデル(LLM)は多くの自然言語処理が可能であるが、完璧には程遠い。
本稿では、文脈情報に基づいて、健康に関する推測を行うLLMの能力について検討する。
本研究は,4つの公衆衛生データセットを用いた12種類のLCMの包括的評価と微調整技術について述べる。
論文 参考訳(メタデータ) (2024-01-12T19:40:11Z) - GraphCare: Enhancing Healthcare Predictions with Personalized Knowledge
Graphs [44.897533778944094]
textscGraphCareは、外部知識グラフを使用してEHRベースの予測を改善するオープンワールドフレームワークである。
本手法は,患者固有のKGを構築するために,大規模言語モデル(LLM)と外部生物医学的KGから知識を抽出する。
textscGraphCareは、4つの重要な医療予測タスクのベースラインを超えている。
論文 参考訳(メタデータ) (2023-05-22T07:35:43Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。