論文の概要: When Domain Pretraining Interferes with Instruction Alignment: An Empirical Study of Adapter Merging in Medical LLMs
- arxiv url: http://arxiv.org/abs/2601.18350v2
- Date: Sun, 01 Feb 2026 02:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 15:03:50.503483
- Title: When Domain Pretraining Interferes with Instruction Alignment: An Empirical Study of Adapter Merging in Medical LLMs
- Title(参考訳): ドメイン事前訓練が指導適応に影響を及ぼす時--医学LLMにおける適応マージの実証的研究
- Authors: Junyi Zou,
- Abstract要約: 大規模言語モデル(LLM)は、ドメイン適応と命令アライメントを組み合わせる際に、驚くほどの強調器干渉を示す。
我々は、PTとSFT LoRAのデルタを線形に組み合わせてエンフウェイトされたアダプタをマージし、単一のマージされたチェックポイントを出力する。
PT信号を追加することで潜在思考の行動が再活性化され,出力分布が体系的に変化することがわかった。
- 参考スコア(独自算出の注目度): 0.6345523830122167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can exhibit surprising \emph{adapter interference} when combining domain adaptation and instruction alignment in safety-critical settings. We study a 14B base model trained with a two-stage LoRA pipeline: (i) domain-oriented pre-training (PT/DOPT) for medical knowledge injection and (ii) supervised fine-tuning (SFT) for instruction following on medical QA. We then form a \emph{weighted adapter merge} by linearly combining PT and SFT LoRA deltas before exporting a single merged checkpoint for inference. We find that adding PT signal can reactivate latent ``thinking'' behavior and systematically shift the output distribution even when training/evaluation templates attempt to disable chain-of-thought. Under a fixed generation evaluation (template \texttt{qwen3\_nothink}, Temp=0.6, Top-$p$=0.8), pure SFT achieves BLEU-4=17.84 on our validation set, while the merged model (PT=0.3, SFT=0.7) drops to BLEU-4=6.50. Meanwhile multiple-choice accuracy remains comparable (avg 0.777 vs 0.778) and MedQA improves from 0.664 to 0.681. We further show that small pipeline mistakes (e.g., loading the wrong adapter, export-directory overwrite, or template mismatch) can spuriously attribute SFT-only behavior to merged models. We provide a lightweight merge-verification routine that numerically checks merged weights against the intended linear combination, along with full logs for reproducibility.
- Abstract(参考訳): 大規模言語モデル(LLM)は、安全クリティカルな設定におけるドメイン適応と命令アライメントを組み合わせた場合、驚くべき \emph{adapter interference} を示す。
2段階のLoRAパイプラインでトレーニングされた14Bベースモデルについて検討する。
一 医学知識注入のためのドメイン指向事前訓練(PT/DOPT)
(II)医学的QAに基づく指導のための教師付き微調整(SFT)。
次に PT と SFT LoRA デルタを線形に結合した \emph{weighted Adapter merge} を作成した後、推論のために単一のマージされたチェックポイントをエクスポートする。
PT信号の追加は、学習/評価テンプレートがチェーン・オブ・シントを無効にしようとする場合であっても、潜伏した ‘ ‘thinking’’ の振る舞いを活性化し、出力分布を体系的にシフトすることを発見した。
固定生成評価(template \textt{qwen3\_nothink}, Temp=0.6, Top-$p$=0.8)の下で、純粋なSFTはBLEU-4=17.84を達成する一方、融合モデル(PT=0.3, SFT=0.7)はBLEU-4=6.50に低下する。
一方、多重選択精度は(0.777対0.778)、MedQAは0.664から0.681に改善されている。
さらに、小さなパイプラインミス(例えば、間違ったアダプタをロードしたり、エクスポート指向のオーバーライトやテンプレートのミスマッチ)が、SFTのみの振る舞いをマージしたモデルに急激な影響を及ぼすことを示しています。
重み付けを意図した線形結合に対して数値的にチェックする軽量なマージ検証ルーチンと再現性のための全ログを提供する。
関連論文リスト
- MMedExpert-R1: Strengthening Multimodal Medical Reasoning via Domain-Specific Adaptation and Clinical Guideline Reinforcement [63.82954136824963]
医療ビジョンランゲージモデルでは、現実世界のシナリオで必要とされる複雑な臨床推論を伴う知覚タスクが優れている。
本稿ではドメイン固有の適応とガイドライン強化を通じてこれらの課題に対処する新しい推論MedVLMを提案する。
論文 参考訳(メタデータ) (2026-01-16T02:32:07Z) - Benchmarking and Adapting On-Device Large Language Models for Clinical Decision Support [3.165122193962168]
大規模言語モデル(LLM)は、臨床意思決定において急速に進歩している。
しかし、プロプライエタリなシステムのデプロイは、プライバシの懸念とクラウドベースのインフラストラクチャへの依存によって妨げられている。
論文 参考訳(メタデータ) (2025-12-18T22:29:45Z) - Fleming-R1: Toward Expert-Level Medical Reasoning via Reinforcement Learning [6.778254993886297]
Fleming-R1は、3つの相補的な革新を通じて、医学的推論を検証するために設計されたモデルである。
まず、我々のReasoning-Oriented Data Strategy(RODS)は、キュレートされた医療用QAデータセットと知識グラフ誘導合成を組み合わせる。
第2に,教師モデルから高品質な推論軌跡を蒸留するために,CoTコールドスタート(Chain-of-Thought)を用いる。
第三に、検証可能なリワードフレームワークから2段階の強化学習を実装します。
論文 参考訳(メタデータ) (2025-09-18T13:35:14Z) - IAD-R1: Reinforcing Consistent Reasoning in Industrial Anomaly Detection [11.178131621535261]
普遍的なポストトレーニングフレームワークであるIAD-R1は、異常検出機能を大幅に強化する。
IAD-R1は7つのVision-Language Model(VLM)で大幅に改善された
IAD-R1はGPT-4.1やClaude-Sonnet-4といった商用モデルを上回るゼロショット設定である。
論文 参考訳(メタデータ) (2025-08-07T09:34:45Z) - Learning from Heterogeneous Structural MRI via Collaborative Domain Adaptation for Late-Life Depression Assessment [24.340328016766183]
T1強調MRIを用いたLDD検出のための協調的ドメイン適応フレームワークを提案する。
このフレームワークは、ラベル付きソースデータに対する教師付きトレーニング、自己教師付きターゲット特徴適応、ラベルなしターゲットデータに対する協調トレーニングの3段階で構成されている。
マルチサイトT1強調MRIデータを用いて行った実験により、このフレームワークは最先端の非教師なし領域適応法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-07-30T01:38:32Z) - DuEDL: Dual-Branch Evidential Deep Learning for Scribble-Supervised Medical Image Segmentation [2.708515419272247]
我々はDuEDL(Dual-Branch Evi-dential Deep Learning)と呼ばれる新しいフレームワークを提案する。
提案手法は, 精度を犠牲にすることなく, モデルの信頼性と一般化能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-23T11:23:57Z) - How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary
Investigation [90.93999543169296]
GPT-4Vは最も先進的な多モード基盤モデルとして機能する。
本研究は, GPT-4Vの動的環境における適応性と一般化能力について, 厳密に評価する。
論文 参考訳(メタデータ) (2023-12-12T16:48:07Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Instrumental Variable Learning for Chest X-ray Classification [52.68170685918908]
本稿では,素因果関係を排除し,正確な因果表現を得るための解釈可能な機器変数(IV)学習フレームワークを提案する。
提案手法の性能はMIMIC-CXR,NIH ChestX-ray 14,CheXpertデータセットを用いて実証した。
論文 参考訳(メタデータ) (2023-05-20T03:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。