論文の概要: HealthBench: Evaluating Large Language Models Towards Improved Human Health
- arxiv url: http://arxiv.org/abs/2505.08775v1
- Date: Tue, 13 May 2025 17:53:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.700099
- Title: HealthBench: Evaluating Large Language Models Towards Improved Human Health
- Title(参考訳): HealthBench: 人間の健康改善に向けた大規模言語モデルの評価
- Authors: Rahul K. Arora, Jason Wei, Rebecca Soskin Hicks, Preston Bowman, Joaquin Quiñonero-Candela, Foivos Tsimpourlas, Michael Sharman, Meghan Shah, Andrea Vallone, Alex Beutel, Johannes Heidecke, Karan Singhal,
- Abstract要約: HealthBenchは、モデルと個人ユーザーまたは医療専門家の間の5000のマルチターン会話で構成されている。
262名の医師が作成した対話型ルーブリックを用いて応答を評価した。
- 参考スコア(独自算出の注目度): 23.316422455713735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present HealthBench, an open-source benchmark measuring the performance and safety of large language models in healthcare. HealthBench consists of 5,000 multi-turn conversations between a model and an individual user or healthcare professional. Responses are evaluated using conversation-specific rubrics created by 262 physicians. Unlike previous multiple-choice or short-answer benchmarks, HealthBench enables realistic, open-ended evaluation through 48,562 unique rubric criteria spanning several health contexts (e.g., emergencies, transforming clinical data, global health) and behavioral dimensions (e.g., accuracy, instruction following, communication). HealthBench performance over the last two years reflects steady initial progress (compare GPT-3.5 Turbo's 16% to GPT-4o's 32%) and more rapid recent improvements (o3 scores 60%). Smaller models have especially improved: GPT-4.1 nano outperforms GPT-4o and is 25 times cheaper. We additionally release two HealthBench variations: HealthBench Consensus, which includes 34 particularly important dimensions of model behavior validated via physician consensus, and HealthBench Hard, where the current top score is 32%. We hope that HealthBench grounds progress towards model development and applications that benefit human health.
- Abstract(参考訳): ヘルスケアにおける大規模言語モデルの性能と安全性を計測するオープンソースのベンチマークであるHealthBenchを紹介します。
HealthBenchは、モデルと個人ユーザーまたは医療専門家の間の5000のマルチターン会話で構成されている。
262名の医師が作成した対話型ルーブリックを用いて応答を評価した。
以前の複数選択または短問合せベンチマークとは異なり、HealthBenchは、いくつかの健康状況(例えば、緊急性、臨床データ変換、グローバルヘルス)と行動次元(例えば、正確性、指示従順、コミュニケーション)にまたがる48,562のユニークなルーリック基準を通じて、現実的に、オープンな評価を可能にする。
過去2年間のHealthBenchのパフォーマンスは、安定した初期進歩(GPT-3.5ターボの16%からGPT-4oの32%)と、より急激な改善(o3スコアは60%)を反映している。
小型モデルは特に改善されており、GPT-4.1ナノはGPT-4oより25倍安価である。
HealthBench Consensusは、医師のコンセンサスによって検証されたモデル行動の重要な次元を34つ含み、HealthBench Hardは32%である。
私たちはHealthBenchが、人間の健康に役立つモデル開発と応用に向けて前進することを願っている。
関連論文リスト
- MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks [17.40940406100025]
私たちは、70億から700億のパラメータからなる、医療AIシステムの新しいファミリーであるMeerkatを紹介します。
我々のシステムは6つの医療ベンチマークで顕著な精度を達成した。
Meerkat-70Bは38例中21例を正しく診断し、ヒトの13.8例を上回った。
論文 参考訳(メタデータ) (2024-03-30T14:09:00Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - The Last JITAI? Exploring Large Language Models for Issuing Just-in-Time Adaptive Interventions: Fostering Physical Activity in a Conceptual Cardiac Rehabilitation Setting [17.11253030181912]
デジタルヘルスにおけるジャスト・イン・タイム・アダプティブ・インターベンション(JITAI)の内容のトリガーおよびパーソナライズにLarge Language Models (LLMs) を用いることの有効性を検討した。
GPT-4生成JITAIは人為的な介入提案を上回っ、すべての指標でLayPsとHCPsを上回った。
論文 参考訳(メタデータ) (2024-02-13T18:39:36Z) - Health-LLM: Large Language Models for Health Prediction via Wearable Sensor Data [43.48422400822597]
大規模言語モデル(LLM)は多くの自然言語処理が可能であるが、完璧には程遠い。
本稿では、文脈情報に基づいて、健康に関する推測を行うLLMの能力について検討する。
本研究は,4つの公衆衛生データセットを用いた12種類のLCMの包括的評価と微調整技術について述べる。
論文 参考訳(メタデータ) (2024-01-12T19:40:11Z) - Autocompletion of Chief Complaints in the Electronic Health Records
using Large Language Models [0.3749861135832072]
テキスト生成技術を用いて,CCデータを用いた機械学習モデルを構築する。
我々は, GPT-4のOpenAI APIを利用して, CC文を組み込むことで, プロンプトを調整した。
モデルの性能は、パープレキシティスコア、修正BERTSスコア、コサイン類似度スコアに基づいて評価する。
論文 参考訳(メタデータ) (2024-01-11T18:06:30Z) - GraphCare: Enhancing Healthcare Predictions with Personalized Knowledge
Graphs [44.897533778944094]
textscGraphCareは、外部知識グラフを使用してEHRベースの予測を改善するオープンワールドフレームワークである。
本手法は,患者固有のKGを構築するために,大規模言語モデル(LLM)と外部生物医学的KGから知識を抽出する。
textscGraphCareは、4つの重要な医療予測タスクのベースラインを超えている。
論文 参考訳(メタデータ) (2023-05-22T07:35:43Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z) - HealthE: Classifying Entities in Online Textual Health Advice [0.0]
我々は、6,756の健康アドバイスからなる新しい注釈付きデータセットHealthEをリリースした。
HealthEは既存のNERコーパスに比べて、より粒度の細かいラベル空間を持っている。
我々は、エンティティクラス分類におけるテキストコンテキストパターンを活用する、新しいヘルスエンティティ分類モデルEP S-BERTを導入する。
論文 参考訳(メタデータ) (2022-10-06T23:18:24Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。