論文の概要: Rethinking Evidence Hierarchies in Medical Language Benchmarks: A Critical Evaluation of HealthBench
- arxiv url: http://arxiv.org/abs/2508.00081v1
- Date: Thu, 31 Jul 2025 18:16:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.621468
- Title: Rethinking Evidence Hierarchies in Medical Language Benchmarks: A Critical Evaluation of HealthBench
- Title(参考訳): 医療言語ベンチマークにおけるエビデンス階層の再考:HealthBenchの批判的評価
- Authors: Fred Mutisya, Shikoh Gitau, Nasubo Ongoma, Keith Mbae, Elizabeth Wamicha,
- Abstract要約: HealthBenchは、健康のためにAIシステムの能力を測定するために設計されたベンチマークである。
高レベルな臨床的証拠ではなく、専門家の意見に頼っているため、地域バイアスと個々の臨床医の同調を表わすリスクがある。
本稿では,体系的レビューとGRADEエビデンス評価を取り入れたバージョン管理臨床ガイドラインにおいて,報酬関数のアンカー化を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: HealthBench, a benchmark designed to measure the capabilities of AI systems for health better (Arora et al., 2025), has advanced medical language model evaluation through physician-crafted dialogues and transparent rubrics. However, its reliance on expert opinion, rather than high-tier clinical evidence, risks codifying regional biases and individual clinician idiosyncrasies, further compounded by potential biases in automated grading systems. These limitations are particularly magnified in low- and middle-income settings, where issues like sparse neglected tropical disease coverage and region-specific guideline mismatches are prevalent. The unique challenges of the African context, including data scarcity, inadequate infrastructure, and nascent regulatory frameworks, underscore the urgent need for more globally relevant and equitable benchmarks. To address these shortcomings, we propose anchoring reward functions in version-controlled Clinical Practice Guidelines (CPGs) that incorporate systematic reviews and GRADE evidence ratings. Our roadmap outlines "evidence-robust" reinforcement learning via rubric-to-guideline linkage, evidence-weighted scoring, and contextual override logic, complemented by a focus on ethical considerations and the integration of delayed outcome feedback. By re-grounding rewards in rigorously vetted CPGs, while preserving HealthBench's transparency and physician engagement, we aim to foster medical language models that are not only linguistically polished but also clinically trustworthy, ethically sound, and globally relevant.
- Abstract(参考訳): 健康のためのAIシステムの能力を測定するために設計されたベンチマーク(Arora et al , 2025)であるHealthBenchは、医師が作成した対話と透明なルーリックを通じて、高度な医療言語モデルの評価を行っている。
しかし、高いレベルの臨床的証拠ではなく、専門家の意見に頼っているため、地域バイアスと個々の臨床的慣用性は、自動化されたグレーティングシステムにおける潜在的なバイアスによってさらに複雑になる。
これらの制限は特に低所得層や中所得層で顕著であり、熱帯性疾患のカバーを軽視したり、地域固有のガイドラインミスマッチが頻繁に発生する。
データ不足、インフラの不十分、新生の規制フレームワークなど、アフリカのコンテキストにおけるユニークな課題は、よりグローバルに関連し、公平なベンチマークの必要性を浮き彫りにしている。
これらの問題点に対処するため,系統的レビューとGRADEエビデンス評価を取り入れたバージョン管理臨床ガイドライン(CPGs)において,報酬関数のアンカー化を提案する。
我々のロードマップは、倫理的考察と遅れた結果フィードバックの統合に焦点をあてて、ルーリック・ツー・ギーデライン・リンク、エビデンス・ウェイト・スコアリング、文脈的オーバライド論理による「エビデンス・ロスト」強化学習の概要を概説している。
健康ベンチの透明性と医師の関与を保ちつつ、厳格に精査されたCPGの報酬を再評価することで、言語学的に洗練されているだけでなく、臨床的に信頼できる、倫理的に健全で、グローバルに関係のある医療言語モデルを育成することを目指している。
関連論文リスト
- Beyond the Leaderboard: Rethinking Medical Benchmarks for Large Language Models [46.81512544528928]
MedCheckは、医療ベンチマーク用に設計された最初のライフサイクル指向アセスメントフレームワークである。
我々のフレームワークは、設計からガバナンスまで、ベンチマークの開発を5つの連続的な段階に分解し、46の医学的基準の包括的なチェックリストを提供する。
本分析では,臨床実践からの深い切り離し,無害な汚染リスクによるデータの整合性の危機,モデルロバスト性や不確実性認識といった安全クリティカルな評価の側面を体系的に無視することなど,全身的な問題を明らかにする。
論文 参考訳(メタデータ) (2025-08-06T11:11:40Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Mind the Gap: Evaluating the Representativeness of Quantitative Medical Language Reasoning LLM Benchmarks for African Disease Burdens [0.609562679184219]
既存のLCMベンチマークでは、高い所得設定による検査シラビと疾患プロファイルを主に反映している。
Alama Health QAはケニアのクリニカル・クリニカル・プラクティス・ガイドラインに固定された検索拡張生成フレームワークを用いて開発された。
アラマは関連性およびガイドラインアライメントで最高であり、PubMedQAは臨床的有用性で最低であった。
論文 参考訳(メタデータ) (2025-07-22T08:05:30Z) - Retrieval-Augmented Clinical Benchmarking for Contextual Model Testing in Kenyan Primary Care: A Methodology Paper [0.609562679184219]
大規模言語モデル(LLM)は、低リソース環境での医療アクセスを改善するという約束を持っているが、アフリカのプライマリケアにおけるそれらの効果は、まだ探索されていない。
ケニアのレベル2と3の臨床ケアに焦点を当てたベンチマークデータセットと評価フレームワークを作成するための方法論を提案する。
本手法は,ケニアの全国ガイドラインに臨床質問を根拠として,地域標準との整合性を確保するためにRAG (Regegration augmented generation) を用いている。
論文 参考訳(メタデータ) (2025-07-19T13:25:26Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - DeepSeek in Healthcare: A Survey of Capabilities, Risks, and Clinical Applications of Open-Source Large Language Models [4.506083131558209]
DeepSeek-R1は、DeepSeekが開発した最先端のオープンソース大規模言語モデル(LLM)である。
パーミッシブなMITライセンスでリリースされているDeepSeek-R1は、プロプライエタリなモデルの透明性と費用対効果を提供する。
数学、医療診断、コード生成、薬学研究など、構造化された問題解決領域を卓越している。
論文 参考訳(メタデータ) (2025-06-02T02:17:04Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Contextual Embedding-based Clustering to Identify Topics for Healthcare Service Improvement [3.9726806016869936]
本研究では,米国ウィスコンシン州の医療システムから収集した439件のアンケート結果から,意味のあるトピックを抽出するための教師なし手法について検討した。
キーワードに基づくフィルタリング手法を,ドメイン固有辞書を用いた苦情関連フィードバックの分離に適用した。
データが不足していて、短文からなるコヒーレンスと解釈可能性を改善するため、kBERTを提案する。
論文 参考訳(メタデータ) (2025-04-18T20:38:24Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Hierarchical Divide-and-Conquer for Fine-Grained Alignment in LLM-Based Medical Evaluation [31.061600616994145]
HDCEvalは、専門医とのコラボレーションによって開発された、きめ細かい医療評価ガイドラインに基づいて構築されている。
このフレームワークは複雑な評価タスクを専門的なサブタスクに分解し、それぞれがエキスパートモデルによって評価される。
この階層的なアプローチは、評価の各側面が専門家の精度で扱われることを保証する。
論文 参考訳(メタデータ) (2025-01-12T07:30:49Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。