論文の概要: When Domain Pretraining Interferes with Instruction Alignment: An Empirical Study of Adapter Merging in Medical LLMs
- arxiv url: http://arxiv.org/abs/2601.18350v1
- Date: Mon, 26 Jan 2026 10:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.784277
- Title: When Domain Pretraining Interferes with Instruction Alignment: An Empirical Study of Adapter Merging in Medical LLMs
- Title(参考訳): ドメイン事前訓練が指導適応に影響を及ぼす時--医学LLMにおける適応マージの実証的研究
- Authors: Junyi Zou,
- Abstract要約: 大規模言語モデル(LLM)は、強力な汎用能力を示すが、医療用語の精度と、それに続く安全クリティカルな指示に苦慮することが多い。
2段階のLoRAパイプラインを経由した14Bパラメータベースモデルを用いた安全クリティカルドメインにおけるアダプタ干渉のケーススタディを提案する。
- 参考スコア(独自算出の注目度): 0.6345523830122167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show strong general capability but often struggle with medical terminology precision and safety-critical instruction following. We present a case study for adapter interference in safety-critical domains using a 14B-parameter base model through a two-stage LoRA pipeline: (1) domain-adaptive pre-training (PT) to inject broad medical knowledge via continued pre-training (DAPT), and (2) supervised fine-tuning (SFT) to align the model with medical question-answering behaviors through instruction-style data. To balance instruction-following ability and domain knowledge retention, we propose Weighted Adapter Merging, linearly combining SFT and PT adapters before exporting a merged base-model checkpoint. On a held-out medical validation set (F5/F6), the merged model achieves BLEU-4 = 16.38, ROUGE-1 = 20.42, ROUGE-2 = 4.60, and ROUGE-L = 11.54 under a practical decoding configuration. We further analyze decoding sensitivity and training stability with loss curves and controlled decoding comparisons.
- Abstract(参考訳): 大規模言語モデル(LLM)は、強力な汎用能力を示すが、医療用語の精度と、それに続く安全クリティカルな指示に苦慮することが多い。
2段階のLoRAパイプラインによる14Bパラメータベースモデルを用いた安全クリティカルドメインにおけるアダプタ干渉のケーススタディとして,(1)ドメイン適応型事前訓練(PT)を継続事前訓練(DAPT)により幅広い医療知識を注入し,(2)教師付き微調整(SFT)を指導スタイルのデータにより,モデルを医療質問応答行動と整合させる。
そこで本研究では,SFT と PT を線形に組み合わせた Weighted Adapter Merging を提案する。
F5/F6では、統合モデルはBLEU-4 = 16.38、ROUGE-1 = 20.42、ROUGE-2 = 4.60、ROUGE-L = 11.54となる。
さらに、損失曲線を用いて復号感度と訓練安定性を解析し、復号比較を制御した。
関連論文リスト
- MMedExpert-R1: Strengthening Multimodal Medical Reasoning via Domain-Specific Adaptation and Clinical Guideline Reinforcement [63.82954136824963]
医療ビジョンランゲージモデルでは、現実世界のシナリオで必要とされる複雑な臨床推論を伴う知覚タスクが優れている。
本稿ではドメイン固有の適応とガイドライン強化を通じてこれらの課題に対処する新しい推論MedVLMを提案する。
論文 参考訳(メタデータ) (2026-01-16T02:32:07Z) - Benchmarking and Adapting On-Device Large Language Models for Clinical Decision Support [3.165122193962168]
大規模言語モデル(LLM)は、臨床意思決定において急速に進歩している。
しかし、プロプライエタリなシステムのデプロイは、プライバシの懸念とクラウドベースのインフラストラクチャへの依存によって妨げられている。
論文 参考訳(メタデータ) (2025-12-18T22:29:45Z) - Fleming-R1: Toward Expert-Level Medical Reasoning via Reinforcement Learning [6.778254993886297]
Fleming-R1は、3つの相補的な革新を通じて、医学的推論を検証するために設計されたモデルである。
まず、我々のReasoning-Oriented Data Strategy(RODS)は、キュレートされた医療用QAデータセットと知識グラフ誘導合成を組み合わせる。
第2に,教師モデルから高品質な推論軌跡を蒸留するために,CoTコールドスタート(Chain-of-Thought)を用いる。
第三に、検証可能なリワードフレームワークから2段階の強化学習を実装します。
論文 参考訳(メタデータ) (2025-09-18T13:35:14Z) - IAD-R1: Reinforcing Consistent Reasoning in Industrial Anomaly Detection [11.178131621535261]
普遍的なポストトレーニングフレームワークであるIAD-R1は、異常検出機能を大幅に強化する。
IAD-R1は7つのVision-Language Model(VLM)で大幅に改善された
IAD-R1はGPT-4.1やClaude-Sonnet-4といった商用モデルを上回るゼロショット設定である。
論文 参考訳(メタデータ) (2025-08-07T09:34:45Z) - Learning from Heterogeneous Structural MRI via Collaborative Domain Adaptation for Late-Life Depression Assessment [24.340328016766183]
T1強調MRIを用いたLDD検出のための協調的ドメイン適応フレームワークを提案する。
このフレームワークは、ラベル付きソースデータに対する教師付きトレーニング、自己教師付きターゲット特徴適応、ラベルなしターゲットデータに対する協調トレーニングの3段階で構成されている。
マルチサイトT1強調MRIデータを用いて行った実験により、このフレームワークは最先端の非教師なし領域適応法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-07-30T01:38:32Z) - DuEDL: Dual-Branch Evidential Deep Learning for Scribble-Supervised Medical Image Segmentation [2.708515419272247]
我々はDuEDL(Dual-Branch Evi-dential Deep Learning)と呼ばれる新しいフレームワークを提案する。
提案手法は, 精度を犠牲にすることなく, モデルの信頼性と一般化能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-23T11:23:57Z) - How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary
Investigation [90.93999543169296]
GPT-4Vは最も先進的な多モード基盤モデルとして機能する。
本研究は, GPT-4Vの動的環境における適応性と一般化能力について, 厳密に評価する。
論文 参考訳(メタデータ) (2023-12-12T16:48:07Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Instrumental Variable Learning for Chest X-ray Classification [52.68170685918908]
本稿では,素因果関係を排除し,正確な因果表現を得るための解釈可能な機器変数(IV)学習フレームワークを提案する。
提案手法の性能はMIMIC-CXR,NIH ChestX-ray 14,CheXpertデータセットを用いて実証した。
論文 参考訳(メタデータ) (2023-05-20T03:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。