Fugu-MT 論文翻訳(概要): Filling in the Clinical Gaps in Benchmark: Case for HealthBench for the Japanese medical system

論文の概要: Filling in the Clinical Gaps in Benchmark: Case for HealthBench for the Japanese medical system

arxiv url: http://arxiv.org/abs/2509.17444v1
Date: Mon, 22 Sep 2025 07:36:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-23 18:58:16.26889
Title: Filling in the Clinical Gaps in Benchmark: Case for HealthBench for the Japanese medical system
Title（参考訳）: ベンチマークにおける臨床ギャップの充足:日本の医療システムにおけるHealthBenchの事例
Authors: Shohei Hisada, Endo Sunao, Himi Yamato, Shoko Wakamiya, Eiji Aramaki,
Abstract要約: 本研究は,大規模かつルーリックな医療ベンチマークであるHealthBenchの日本の文脈への適用性について検討した。ハイパフォーマンス多言語モデル(GPT-4.1)と日本語ネイティブオープンソースモデル(LLM-jp-3.1)の両方を評価するために,HealthBenchの5000シナリオの機械翻訳版を適用した。以上より, GPT-4.1は, 難治性ミスマッチと日本語母語モデルに有意な障害がみられ, 臨床完全性は欠如していた。
参考スコア（独自算出の注目度）: 5.7880565661958565
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This study investigates the applicability of HealthBench, a large-scale, rubric-based medical benchmark, to the Japanese context. While robust evaluation frameworks are crucial for the safe development of medical LLMs, resources in Japanese remain limited, often relying on translated multiple-choice questions. Our research addresses this gap by first establishing a performance baseline, applying a machine-translated version of HealthBench's 5,000 scenarios to evaluate both a high-performing multilingual model (GPT-4.1) and a Japanese-native open-source model (LLM-jp-3.1). Second, we employ an LLM-as-a-Judge approach to systematically classify the benchmark's scenarios and rubric criteria, identifying "contextual gaps" where content is misaligned with Japan's clinical guidelines, healthcare systems, or cultural norms. Our findings reveal a modest performance drop in GPT-4.1 due to rubric mismatches and a significant failure in the Japanese-native model, which lacked the required clinical completeness. Furthermore, our classification indicates that while the majority of scenarios are applicable, a substantial portion of the rubric criteria requires localization. This work underscores the limitations of direct benchmark translation and highlights the urgent need for a context-aware, localized adaptation, a J-HealthBench, to ensure the reliable and safe evaluation of medical LLMs in Japan.
Abstract（参考訳）: 本研究は,大規模かつルーリックな医療ベンチマークであるHealthBenchの日本の文脈への適用性について検討した。医療用LCMの安全な開発にはロバストな評価フレームワークが不可欠であるが,日本語の資源は限定的であり,翻訳された複数質問に頼っていることが多い。本研究は,まず,ハイパフォーマンス多言語モデル (GPT-4.1) と日本語ネイティブオープンソースモデル (LLM-jp-3.1) の両方を評価するために,HealthBenchの5000シナリオの機械翻訳版を適用した。第2に,LLM-as-a-Judgeアプローチを用いてベンチマークのシナリオと粗末な基準を体系的に分類し,内容が日本の臨床ガイドライン,医療システム,文化規範と一致していない「コンテキストギャップ」を特定する。以上より, GPT-4.1は, 難治性ミスマッチと日本語母語モデルに有意な障害がみられ, 臨床完全性は欠如していた。さらに,本分類は,ほとんどのシナリオが適用可能である一方で,ルーブリック基準のかなりの部分が局所化を必要とすることを示唆している。本研究は, 直接ベンチマーク翻訳の限界を浮き彫りにして, 日本における医療用LSMの信頼性と安全性を確保するために, 文脈認識, 局所適応, J-HealthBenchの必要性を強調した。

関連論文リスト

MORQA: Benchmarking Evaluation Metrics for Medical Open-Ended Question Answering [11.575146661047368]
我々は,NLG評価指標の有効性を評価するために,新しい多言語ベンチマークであるMORQAを紹介する。従来のメトリクスと大規模言語モデル(LLM)ベースの評価器(GPT-4やGeminiなど)をベンチマークする。本研究は,医学領域におけるNLG評価の総合的,多言語的質的研究である。
論文参考訳（メタデータ） (2025-09-15T19:51:57Z)
Rethinking Evidence Hierarchies in Medical Language Benchmarks: A Critical Evaluation of HealthBench [0.0]
HealthBenchは、健康のためにAIシステムの能力を測定するために設計されたベンチマークである。高レベルな臨床的証拠ではなく、専門家の意見に頼っているため、地域バイアスと個々の臨床医の同調を表わすリスクがある。本稿では,体系的レビューとGRADEエビデンス評価を取り入れたバージョン管理臨床ガイドラインにおいて,報酬関数のアンカー化を提案する。
論文参考訳（メタデータ） (2025-07-31T18:16:10Z)
Retrieval-Augmented Clinical Benchmarking for Contextual Model Testing in Kenyan Primary Care: A Methodology Paper [0.609562679184219]
大規模言語モデル(LLM)は、低リソース環境での医療アクセスを改善するという約束を持っているが、アフリカのプライマリケアにおけるそれらの効果は、まだ探索されていない。ケニアのレベル2と3の臨床ケアに焦点を当てたベンチマークデータセットと評価フレームワークを作成するための方法論を提案する。本手法は,ケニアの全国ガイドラインに臨床質問を根拠として,地域標準との整合性を確保するためにRAG (Regegration augmented generation) を用いている。
論文参考訳（メタデータ） (2025-07-19T13:25:26Z)
LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。 LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文参考訳（メタデータ） (2025-06-04T15:43:14Z)
A Japanese Language Model and Three New Evaluation Benchmarks for Pharmaceutical NLP [0.5219568203653523]
本稿では,20億の日本製薬トークンと80億のイギリス製バイオメディカルトークンの継続事前学習を通じて開発された,医薬分野のドメイン固有言語モデルを提案する。本稿では,国家薬剤師免許試験に基づくYakugakuQA,言語横断同義語と用語正規化を試験するNayoseQA,ペア文間の整合性推論を評価するSogoCheckの3つの新しいベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-22T13:27:37Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications [2.838746648891565]
臨床能力の5つの重要な側面にまたがって,大規模言語モデル(LLM)を評価するフレームワークであるMEDICを紹介する。医療質問応答,安全性,要約,メモ生成,その他のタスクにおいて,MDDICを用いてLCMを評価する。その結果, モデルサイズ, ベースライン, 医療用微調整モデル間の性能差が示され, 特定のモデル強度を必要とするアプリケーションに対して, モデル選択に影響を及ぼすことがわかった。
論文参考訳（メタデータ） (2024-09-11T14:44:51Z)
MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models [55.215061531495984]
メドベンチ(MedBench)は、中国の医学LLMの総合的、標準化され、信頼性の高いベンチマークシステムである。まず、MedBenchは43の臨床専門分野をカバーするために、最大の評価データセット(300,901の質問)を組み立てる。第3に、MedBenchは動的評価機構を実装し、ショートカット学習や解答記憶を防ぐ。
論文参考訳（メタデータ） (2024-06-24T02:25:48Z)
A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。 3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文参考訳（メタデータ） (2024-02-17T08:04:23Z)
CMB: A Comprehensive Medical Benchmark in Chinese [67.69800156990952]
そこで我々は,中国語の包括的医療ベンチマークであるCMB(Comprehensive Medical Benchmark)を提案する。伝統的な中国医学はこの評価に欠かせないものであるが、全体としては成り立たない。われわれは,ChatGPT,GPT-4,中国専用LSM,医療分野に特化したLSMなど,いくつかの大規模LSMを評価した。
論文参考訳（メタデータ） (2023-08-17T07:51:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。