論文の概要: Do Clinical Question Answering Systems Really Need Specialised Medical Fine Tuning?
- arxiv url: http://arxiv.org/abs/2601.12812v1
- Date: Mon, 19 Jan 2026 08:17:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.804121
- Title: Do Clinical Question Answering Systems Really Need Specialised Medical Fine Tuning?
- Title(参考訳): 医療ファインチューニングが本当に必要か?
- Authors: Sushant Kumar Ray, Gautam Siddharth Kashyap, Sahil Tripathi, Nipun Joshi, Vijay Govindarajan, Rafiq Ali, Jiechao Gao, Usman Naseem,
- Abstract要約: 大規模言語モデル(LLM)に頼りつつあるCQA(Cysical Question-Answering)産業システム
MEDASSESS-Xはデプロイメント指向のCQAフレームワークで、スーパービジョンファインチューニング(SFT)ではなく、推論時にアライメントを適用する。
- 参考スコア(独自算出の注目度): 15.650202067784399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical Question-Answering (CQA) industry systems are increasingly rely on Large Language Models (LLMs), yet their deployment is often guided by the assumption that domain-specific fine-tuning is essential. Although specialised medical LLMs such as BioBERT, BioGPT, and PubMedBERT remain popular, they face practical limitations including narrow coverage, high retraining costs, and limited adaptability. Efforts based on Supervised Fine-Tuning (SFT) have attempted to address these assumptions but continue to reinforce what we term the SPECIALISATION FALLACY-the belief that specialised medical LLMs are inherently superior for CQA. To address this assumption, we introduce MEDASSESS-X, a deployment-industry-oriented CQA framework that applies alignment at inference time rather than through SFT. MEDASSESS-X uses lightweight steering vectors to guide model activations toward medically consistent reasoning without updating model weights or requiring domain-specific retraining. This inference-time alignment layer stabilises CQA performance across both general-purpose and specialised medical LLMs, thereby resolving the SPECIALISATION FALLACY. Empirically, MEDASSESS-X delivers consistent gains across all LLM families, improving Accuracy by up to +6%, Factual Consistency by +7%, and reducing Safety Error Rate by as much as 50%.
- Abstract(参考訳): CQA(Citical Question-Answering)産業システムは、言語モデル(Large Language Models, LLM)にますます依存している。
BioBERT、BioGPT、PubMedBERTといった専門の医療用LLMは今でも人気があるが、カバー範囲が狭く、トレーニングコストが高く、適応性も限られている。
スーパーバイザード・ファイン・チューニング(SFT)に基づく取り組みは、これらの前提に対処しようと試みてきたが、専門医のLSMが本質的にCQAよりも優れているという信念である「スペシャライズ・ファラエイチ(SPECIALISATION FALLACY)」と呼ばれるものを強化し続けている。
この仮定に対処するために、SFTではなく推論時にアライメントを適用するデプロイメント指向のCQAフレームワークであるMEDASSESS-Xを紹介する。
MEDASSESS-Xは軽量なステアリングベクトルを使用して、モデルウェイトを更新したりドメイン固有のリトレーニングを必要とせずに、モデルアクティベーションを医学的に一貫した推論へと導く。
この推論時間アライメント層は、汎用および専門化された医療用LLMのCQA性能を安定化し、特殊化ファラシを解消する。
実証的に、MEDASSESS-Xは全てのLLMファミリーで一貫した利得を提供し、精度を最大で6%向上させ、現実的一貫性を+7%向上させ、安全性エラー率を最大50%低下させる。
関連論文リスト
- MMedExpert-R1: Strengthening Multimodal Medical Reasoning via Domain-Specific Adaptation and Clinical Guideline Reinforcement [63.82954136824963]
医療ビジョンランゲージモデルでは、現実世界のシナリオで必要とされる複雑な臨床推論を伴う知覚タスクが優れている。
本稿ではドメイン固有の適応とガイドライン強化を通じてこれらの課題に対処する新しい推論MedVLMを提案する。
論文 参考訳(メタデータ) (2026-01-16T02:32:07Z) - Optimizing Medical Question-Answering Systems: A Comparative Study of Fine-Tuned and Zero-Shot Large Language Models with RAG Framework [0.0]
本稿では,ドメイン固有知識検索とオープンソース LLM を組み合わせたRAG (Research-augmented Generation) ベースの医療QAシステムを提案する。
ローランド適応 (LoRA) を用いて, 最先端のオープンLCM (LLaMA2 と Falcon) を2つ微調整し, 効率的なドメイン特殊化を行う。
我々の微調整LLaMA2モデルはPubMedQAで71.8%の精度を実現し、55.4%のゼロショットベースラインを大幅に改善した。
論文 参考訳(メタデータ) (2025-12-05T16:38:47Z) - Small Language Models for Emergency Departments Decision Support: A Benchmark Study [26.333059604118414]
大規模言語モデル(LLM)は、医師が様々な臨床および手術業務を行うのを助けるために、医学領域でますます人気が高まっている。
小型言語モデル(SLM)は、その固有の推論能力と効率的な性能から、大きな可能性を秘めている。
これにより、SLMは、タイムリーかつ正確な情報合成を提供することで、医師を支援することができ、臨床意思決定とワークフロー効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-05T04:46:30Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Correctness Coverage Evaluation for Medical Multiple-Choice Question Answering Based on the Enhanced Conformal Prediction Framework [2.9599960287815144]
大規模言語モデル(LLM)は、医療質問応答(QA)のシナリオでますます採用されている。
LLMは幻覚や非現実的な情報を生成でき、高い医療業務における信頼性を損なう。
本稿では,医療用マルチ選択質問応答タスクのための拡張型コンフォーマル予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T15:22:10Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Functional-level Uncertainty Quantification for Calibrated Fine-tuning on LLMs [38.33520071583312]
Calibrated Fine-Tuning (UQ4CT)は、入力を出力にマッピングする関数の空間上の不確実性をキャプチャし、校正する。
我々は,機能空間を階層的に分解するMix-of-expertsフレームワークを用いて,微調整段階のUQ4CTを実装した。
分散シフト中であっても、UQ4CTはより優れたECE性能を高い精度で維持し、一般化性の向上を示す。
論文 参考訳(メタデータ) (2024-10-09T00:09:15Z) - End-to-End Breast Cancer Radiotherapy Planning via LMMs with Consistency Embedding [47.360760580820966]
放射線腫瘍学の分野に適した包括的大規模マルチモーダルモデル(LMM)であるRO-LMMを提案する。
このモデルは臨床ワークフロー内の一連のタスクを効果的に管理し、臨床コンテキストの要約、放射線治療計画の提案、計画誘導されたターゲットボリュームセグメンテーションを含む。
クリーン入力処理の整合性を維持しつつ,LMMのノイズ入力に対する堅牢性を向上する,CEFTune(Consistency Embedding Fine-Tuning)技術を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。