論文の概要: Filling in the Clinical Gaps in Benchmark: Case for HealthBench for the Japanese medical system
- arxiv url: http://arxiv.org/abs/2509.17444v2
- Date: Fri, 10 Oct 2025 10:00:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:46.296898
- Title: Filling in the Clinical Gaps in Benchmark: Case for HealthBench for the Japanese medical system
- Title(参考訳): ベンチマークにおける臨床ギャップの充足:日本の医療システムにおけるHealthBenchの事例
- Authors: Shohei Hisada, Endo Sunao, Himi Yamato, Shoko Wakamiya, Eiji Aramaki,
- Abstract要約: 本研究では,日本におけるHealthBenchの適用性について検討した。
日本語の資源は乏しく、翻訳された複数の質問から構成されることが多い。
- 参考スコア(独自算出の注目度): 5.7880565661958565
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study investigates the applicability of HealthBench, a large-scale, rubric-based medical benchmark, to the Japanese context. Although robust evaluation frameworks are essential for the safe development of medical LLMs, resources in Japanese are scarce and often consist of translated multiple-choice questions. Our research addresses this issue in two ways. First, we establish a performance baseline by applying a machine-translated version of HealthBench's 5,000 scenarios to evaluate two models: a high-performing multilingual model (GPT-4.1) and a Japanese-native open-source model (LLM-jp-3.1). Secondly, we use an LLM-as-a-Judge approach to systematically classify the benchmark's scenarios and rubric criteria. This allows us to identify 'contextual gaps' where the content is misaligned with Japan's clinical guidelines, healthcare systems or cultural norms. Our findings reveal a modest performance drop in GPT-4.1 due to rubric mismatches, as well as a significant failure in the Japanese-native model, which lacked the required clinical completeness. Furthermore, our classification shows that, despite most scenarios being applicable, a significant proportion of the rubric criteria require localisation. This work underscores the limitations of direct benchmark translation and highlights the urgent need for a context-aware, localised adaptation, a "J-HealthBench", to ensure the reliable and safe evaluation of medical LLMs in Japan.
- Abstract(参考訳): 本研究は,大規模かつルーリックな医療ベンチマークであるHealthBenchの日本の文脈への適用性について検討した。
医療用LLMの安全開発にはロバストな評価フレームワークが不可欠であるが,日本語の資源は乏しく,翻訳された複数質問から構成されることが多い。
我々の研究はこの問題を2つの方法で解決している。
まず、ハイパフォーマンスな多言語モデル(GPT-4.1)と日本語ネイティブなオープンソースモデル(LLM-jp-3.1)の2つのモデルを評価するために、HealthBenchの5000シナリオの機械翻訳版を適用してパフォーマンスベースラインを確立する。
次に、LLM-as-a-Judgeアプローチを用いて、ベンチマークのシナリオと粗末な基準を体系的に分類する。
これにより、我が国の医療ガイドラインや医療制度、文化規範と誤って内容が一致していない「コンテキストギャップ」を特定できる。
以上より, GPT-4.1は難治性ミスマッチにより軽度に低下し, 臨床完全性に欠ける日本原産モデルでは有意な障害がみられた。
さらに,本分類は,ほとんどのシナリオが適用可能であるにも拘わらず,ルーブリック基準のかなりの割合は局所化を必要とすることを示している。
本研究は, 直接ベンチマーク翻訳の限界を浮き彫りにして, 医療用LSMの信頼性と安全性を確保するために, 文脈認識, 局所化適応, 「J-HealthBench」の必要性を強調した。
関連論文リスト
- MORQA: Benchmarking Evaluation Metrics for Medical Open-Ended Question Answering [11.575146661047368]
我々は,NLG評価指標の有効性を評価するために,新しい多言語ベンチマークであるMORQAを紹介する。
従来のメトリクスと大規模言語モデル(LLM)ベースの評価器(GPT-4やGeminiなど)をベンチマークする。
本研究は,医学領域におけるNLG評価の総合的,多言語的質的研究である。
論文 参考訳(メタデータ) (2025-09-15T19:51:57Z) - Rethinking Evidence Hierarchies in Medical Language Benchmarks: A Critical Evaluation of HealthBench [0.0]
HealthBenchは、健康のためにAIシステムの能力を測定するために設計されたベンチマークである。
高レベルな臨床的証拠ではなく、専門家の意見に頼っているため、地域バイアスと個々の臨床医の同調を表わすリスクがある。
本稿では,体系的レビューとGRADEエビデンス評価を取り入れたバージョン管理臨床ガイドラインにおいて,報酬関数のアンカー化を提案する。
論文 参考訳(メタデータ) (2025-07-31T18:16:10Z) - Retrieval-Augmented Clinical Benchmarking for Contextual Model Testing in Kenyan Primary Care: A Methodology Paper [0.609562679184219]
大規模言語モデル(LLM)は、低リソース環境での医療アクセスを改善するという約束を持っているが、アフリカのプライマリケアにおけるそれらの効果は、まだ探索されていない。
ケニアのレベル2と3の臨床ケアに焦点を当てたベンチマークデータセットと評価フレームワークを作成するための方法論を提案する。
本手法は,ケニアの全国ガイドラインに臨床質問を根拠として,地域標準との整合性を確保するためにRAG (Regegration augmented generation) を用いている。
論文 参考訳(メタデータ) (2025-07-19T13:25:26Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - A Japanese Language Model and Three New Evaluation Benchmarks for Pharmaceutical NLP [0.5219568203653523]
本稿では,20億の日本製薬トークンと80億のイギリス製バイオメディカルトークンの継続事前学習を通じて開発された,医薬分野のドメイン固有言語モデルを提案する。
本稿では,国家薬剤師免許試験に基づくYakugakuQA,言語横断同義語と用語正規化を試験するNayoseQA,ペア文間の整合性推論を評価するSogoCheckの3つの新しいベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-22T13:27:37Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications [2.838746648891565]
臨床能力の5つの重要な側面にまたがって,大規模言語モデル(LLM)を評価するフレームワークであるMEDICを紹介する。
医療質問応答,安全性,要約,メモ生成,その他のタスクにおいて,MDDICを用いてLCMを評価する。
その結果, モデルサイズ, ベースライン, 医療用微調整モデル間の性能差が示され, 特定のモデル強度を必要とするアプリケーションに対して, モデル選択に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2024-09-11T14:44:51Z) - MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models [55.215061531495984]
メドベンチ(MedBench)は、中国の医学LLMの総合的、標準化され、信頼性の高いベンチマークシステムである。
まず、MedBenchは43の臨床専門分野をカバーするために、最大の評価データセット(300,901の質問)を組み立てる。
第3に、MedBenchは動的評価機構を実装し、ショートカット学習や解答記憶を防ぐ。
論文 参考訳(メタデータ) (2024-06-24T02:25:48Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - CMB: A Comprehensive Medical Benchmark in Chinese [67.69800156990952]
そこで我々は,中国語の包括的医療ベンチマークであるCMB(Comprehensive Medical Benchmark)を提案する。
伝統的な中国医学はこの評価に欠かせないものであるが、全体としては成り立たない。
われわれは,ChatGPT,GPT-4,中国専用LSM,医療分野に特化したLSMなど,いくつかの大規模LSMを評価した。
論文 参考訳(メタデータ) (2023-08-17T07:51:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。