Fugu-MT 論文翻訳(概要): Evaluating Small Open LLMs for Medical Question Answering: A Practical Framework

論文の概要: Evaluating Small Open LLMs for Medical Question Answering: A Practical Framework

arxiv url: http://arxiv.org/abs/2604.10535v1
Date: Sun, 12 Apr 2026 08:56:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:16.083782
Title: Evaluating Small Open LLMs for Medical Question Answering: A Practical Framework
Title（参考訳）: 医療質問応答のための小さなオープン LLM の評価: 実践的枠組み
Authors: Avi-ad Avraam Buskila,
Abstract要約: 医学質問応答における大規模言語モデル(LLM)は、平均的精度以上の要求を満たす。 Redditのようなオンライン健康コミュニティは、何百万人ものユーザーにとって、医療情報の主要な情報源となっている。本稿では,小規模かつローカルにデプロイ可能なオープンウェイトLCMを医療質問応答上で評価するための,実用的なオープンソース評価フレームワークを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Incorporating large language models (LLMs) in medical question answering demands more than high average accuracy: a model that returns substantively different answers each time it is queried is not a reliable medical tool. Online health communities such as Reddit have become a primary source of medical information for millions of users, yet they remain highly susceptible to misinformation; deploying LLMs as assistants in these settings amplifies the need for output consistency alongside correctness. We present a practical, open-source evaluation framework for assessing small, locally-deployable open-weight LLMs on medical question answering, treating reproducibility as a first-class metric alongside lexical and semantic accuracy. Our pipeline computes eight quality metrics, including BERTScore, ROUGE-L, and an LLM-as-judge rubric, together with two within-model reproducibility metrics derived from repeated inference (N=10 runs per question). Evaluating three models (Llama 3.1 8B, Gemma 3 12B, MedGemma 1.5 4B) on 50 MedQuAD questions (N=1,500 total responses) reveals that despite low-temperature generation (T=0.2), self-agreement across runs reaches at most 0.20, while 87-97% of all outputs per model are unique -- a safety gap that single-pass benchmarks entirely miss. The clinically fine-tuned MedGemma 1.5 4B underperforms the larger general-purpose models on both quality and reproducibility; however, because MedGemma is also the smallest model, this comparison confounds domain fine-tuning with model scale. We describe the methodology in sufficient detail for practitioners to replicate or extend the evaluation for their own model-selection workflows. All code and data pipelines are available at https://github.com/aviad-buskila/llm_medical_reproducibility.
Abstract（参考訳）: 大きな言語モデル(LLM)を医学的質問応答に組み込むことは、高い平均的正確性よりも要求を多く要求する:クエリされるたびに実質的に異なる回答を返すモデルは、信頼できる医療ツールではない。 Redditのようなオンラインヘルスコミュニティは、数百万のユーザにとって主要な医療情報ソースとなっているが、誤情報の影響を受けやすいままである。医療質問応答において, 局所的に展開可能な小型オープンウェイトLCMの評価を行い, 再現性を語彙的, 意味的精度とともに一級計量として扱うための実用的, オープンソース評価フレームワークを提案する。提案するパイプラインは,BERTScore,ROUGE-L,LLM-as-judge rubricを含む8つの品質指標と,繰り返し推論(N=10)から導出される2つのモデル内再現性指標を演算する。 3つのモデル(Llama 3.1 8B, Gemma 3 12B, MedGemma 1.5 4B)を50のMedQuAD質問(N=1500の総応答)で評価すると、低温生成(T=0.2)にもかかわらず、実行時の自己評価は最大で0.20に達する。臨床的に微調整されたMedGemma 1.5 4Bは、品質と再現性の両方においてより大きな汎用モデルの性能を損なうが、MedGemmaは最小のモデルであるため、この比較はドメインの微調整をモデルスケールと比較する。本手法は,実践者が自身のモデル選択ワークフローの評価を再現あるいは拡張するために十分な詳細で記述する。すべてのコードとデータパイプラインはhttps://github.com/aviad-buskila/llm_medical_reproducibilityで入手できる。

関連論文リスト

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment [0.0]
小規模のオープンソース言語モデルは、低リソース環境でのヘルスケアアプリケーションに注目を集めている。臨床質問応答データセットを用いて,5つのオープンソースモデル(Gemma 2 2B, Phi-3 Mini 3.8B, Llama 3.2 3B, Mistral 7B, Meditron-7B)を評価した。
論文参考訳（メタデータ） (2026-03-01T04:37:48Z)
When Metrics Disagree: Automatic Similarity vs. LLM-as-a-Judge for Clinical Dialogue Evaluation [18.338933046286257]
大きな言語モデル(LLM)は、医学的なクエリを含む様々な問題に対処するために、ますます採用されている。 LLMは医学的文脈では性能が悪く、ユーザにとって有害な誤認につながる可能性がある。本稿では,実際の患者-医師間相互作用の転写を用いたトランスフォーマーベースデコーダモデルであるLlama 2 7Bの微調整に焦点を当てた。
論文参考訳（メタデータ） (2026-02-27T21:09:43Z)
Small LLMs for Medical NLP: a Systematic Analysis of Few-Shot, Constraint Decoding, Fine-Tuning and Continual Pre-Training in Italian [2.415128123637063]
大規模言語モデル(LLM)は、多種多様な自然言語処理(NLP)タスクに一貫して優れている。本研究では,「小さい」LSMが,競争精度を維持しつつ,効果的に医療業務を遂行できるかどうかを検討する。 Llama-3, Gemma-3, Qwen3の3つの主要なNLPタスクのモデルについて検討した。
論文参考訳（メタデータ） (2026-02-19T15:38:46Z)
A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-29T18:48:21Z)
MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian [50.767415194856135]
ルーマニア初の大規模医療QAベンチマークであるMedQARoを紹介する。がん患者に関連する102,646のQAペアからなる高品質で大規模なデータセットを構築した。
論文参考訳（メタデータ） (2025-08-22T13:48:37Z)
LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。 LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文参考訳（メタデータ） (2025-06-04T15:43:14Z)
TheBlueScrubs-v1, a comprehensive curated medical dataset derived from the internet [1.4043931310479378]
BlueScrubs-v1は、広範囲のインターネットコーパスから得られた2500億以上の医療トークンの収集されたデータセットである。各テキストには、医療関連性、精度、事実の詳細、安全性と倫理基準を含む3つのLCMベースの品質スコアが割り当てられている。このData Descriptorは、データセットの作成と検証について詳述し、医療AI研究の潜在的有用性について説明している。
論文参考訳（メタデータ） (2025-04-01T22:25:19Z)
Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks [2.7729041396205014]
本研究では,オープンソースの5つの大言語モデル(LLM)の分類性能を評価する。全てのモデルとタスクの組み合わせに対して、95%の信頼区間を有する精度、リコール、F1スコアを報告する。
論文参考訳（メタデータ） (2025-03-19T12:51:52Z)
LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文参考訳（メタデータ） (2024-10-27T16:23:26Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-07-11T16:51:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。