Fugu-MT 論文翻訳(概要): To Adapt or not to Adapt, Rethinking the Value of Medical Knowledge-Aware Large Language Models

論文の概要: To Adapt or not to Adapt, Rethinking the Value of Medical Knowledge-Aware Large Language Models

arxiv url: http://arxiv.org/abs/2604.06854v1
Date: Wed, 08 Apr 2026 09:17:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-09 17:30:51.447908
Title: To Adapt or not to Adapt, Rethinking the Value of Medical Knowledge-Aware Large Language Models
Title（参考訳）: 医学知識を考慮した大規模言語モデルの価値を再考する
Authors: Ane G. Domingo-Aldama, Iker De La Iglesia, Maitane Urruela, Aitziber Atutxa, Ander Barrena,
Abstract要約: 近年の研究では、標準医療ベンチマークにおいて、ドメイン適応型大規模言語モデル(LLM)が汎用モデルよりも一貫して優れているわけではないことが示されている。本研究は,英語とスペイン語の多種多様な臨床質問応答課題に対する総合的および臨床的LLMの比較である。
参考スコア（独自算出の注目度）: 0.7939766248249879
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: BACKGROUND: Recent studies have shown that domain-adapted large language models (LLMs) do not consistently outperform general-purpose counterparts on standard medical benchmarks, raising questions about the need for specialized clinical adaptation. METHODS: We systematically compare general and clinical LLMs on a diverse set of multiple choice clinical question answering tasks in English and Spanish. We introduce a perturbation based evaluation benchmark that probes model robustness, instruction following, and sensitivity to adversarial variations. Our evaluation includes, one-step and two-step question transformations, multi prompt testing and instruction guided assessment. We analyze a range of state-of-the-art clinical models and their general-purpose counterparts, focusing on Llama 3.1-based models. Additionally, we introduce Marmoka, a family of lightweight 8B-parameter clinical LLMs for English and Spanish, developed via continual domain-adaptive pretraining on medical corpora and instructions. RESULTS: The experiments show that clinical LLMs do not consistently outperform their general purpose counterparts on English clinical tasks, even under the proposed perturbation based benchmark. However, for the Spanish subsets the proposed Marmoka models obtain better results compared to Llama. CONCLUSIONS: Our results show that, under current short-form MCQA benchmarks, clinical LLMs offer only marginal and unstable improvements over general-purpose models in English, suggesting that existing evaluation frameworks may be insufficient to capture genuine medical expertise. We further find that both general and clinical models exhibit substantial limitations in instruction following and strict output formatting. Finally, we demonstrate that robust medical LLMs can be successfully developed for low-resource languages such as Spanish, as evidenced by the Marmoka models.
Abstract（参考訳）: BACKGROUND: 近年の研究では、ドメイン適応型大規模言語モデル(LLM)が標準医療ベンチマークにおいて汎用モデルよりも一貫して優れていないことが示されており、専門的な臨床適応の必要性に関する疑問が提起されています。方法: 英語とスペイン語の多種多様な臨床質問応答課題について, 総合的, 臨床的LLMを体系的に比較した。本稿では, モデル頑健性, 命令追従性, 対向変動に対する感度を探索する摂動に基づく評価ベンチマークを提案する。評価には、一段階と二段階の質問変換、複数プロンプトテスト、指導指導による評価が含まれる。我々は,Llama 3.1 ベースのモデルに着目し,最先端の臨床モデルとその汎用モデルについて分析する。さらに,英語とスペイン語の軽量な8Bパラメーター臨床LSMのファミリーであるMarmokaを紹介した。結果: 本実験は, 提案した摂動評価基準の下でも, 臨床 LLM が英語臨床における汎用的課題を常に上回っているわけではないことを示した。しかし、スペインの部分集合では、提案されたマーモカモデルの方がラマよりも良い結果が得られる。結論: この結果から, MCQA ベンチマークでは, 臨床 LLM は英語の汎用モデルよりも限界的, 不安定な改善しか得られていないことが示唆され, 既存の評価フレームワークは, 真の医学的専門知識を捉えるには不十分である可能性が示唆された。さらに、一般的なモデルと臨床モデルの両方が、命令追従および厳密な出力フォーマッティングにかなりの制限があることが判明した。最後に,マルモカモデルが示すように,ロバストな医療用LLMをスペイン語などの低リソース言語でうまく開発できることを実証する。

関連論文リスト

MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences [50.71326426975699]
MedArenaは医療用大規模言語モデル(LLM)のためのインタラクティブな評価プラットフォームである。 MedArenaは、2つのランダムに選択されたモデルからの応答を表示し、ユーザが好みのレスポンスを選択するように要求する。 2025年11月1日までに12台のLLMで収集された1571の選好のうち、ジェミニ2.0フラッシュシンキング、ジェミニ2.5プロ、GPT-4oがブラッドリー・テリーのレーティングで上位3モデルとなった。
論文参考訳（メタデータ） (2026-03-13T22:30:26Z)
Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文参考訳（メタデータ） (2025-10-11T16:24:35Z)
MedGUIDE: Benchmarking Clinical Decision-Making in Large Language Models [10.46932473088646]
MedGUIDEは,Large Language Models (LLMs) を評価するための新しいベンチマークであり,ガイドラインに一貫性のある臨床診断を行う能力について紹介する。 MedGUIDEは17種類の癌にまたがる55のNCCN決定木から構築されている。本研究では,10の臨床的,言語学的基準において,専門家ラベル付き報酬モデルとLLM-as-a-judgeアンサンブルを組み合わせた2段階の品質選択プロセスを適用し,高品質なサンプル7,747を選定した。
論文参考訳（メタデータ） (2025-05-16T18:21:52Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。このベンチマークの信頼性はいくつかの点で確認されている。
論文参考訳（メタデータ） (2024-10-04T15:15:36Z)
MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications [2.838746648891565]
臨床能力の5つの重要な側面にまたがって,大規模言語モデル(LLM)を評価するフレームワークであるMEDICを紹介する。医療質問応答,安全性,要約,メモ生成,その他のタスクにおいて,MDDICを用いてLCMを評価する。その結果, モデルサイズ, ベースライン, 医療用微調整モデル間の性能差が示され, 特定のモデル強度を必要とするアプリケーションに対して, モデル選択に影響を及ぼすことがわかった。
論文参考訳（メタデータ） (2024-09-11T14:44:51Z)
SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。 6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文参考訳（メタデータ） (2024-07-03T11:02:12Z)
Pattern Recognition or Medical Knowledge? The Problem with Multiple-Choice Questions in Medicine [3.471944921180245]
大規模言語モデル(LLM)は、医療領域において大きな可能性を示す。これらの質問は、USMLEのような試験をモデルとしたMCQ(Multiple-choice Question)を用いて評価されることが多い。私たちは、想像上のオルガンであるGlianorexを中心とした架空の医療ベンチマークを作成し、記憶された知識と推論能力の分離を可能にしました。
論文参考訳（メタデータ） (2024-06-04T15:08:56Z)
A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。 3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文参考訳（メタデータ） (2024-02-17T08:04:23Z)
Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文参考訳（メタデータ） (2022-12-26T14:28:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。