論文の概要: Countering Catastrophic Forgetting of Large Language Models for Better Instruction Following via Weight-Space Model Merging
- arxiv url: http://arxiv.org/abs/2604.01538v1
- Date: Thu, 02 Apr 2026 02:18:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.194981
- Title: Countering Catastrophic Forgetting of Large Language Models for Better Instruction Following via Weight-Space Model Merging
- Title(参考訳): 重み空間モデルマージによる学習改善のための大規模言語モデルの破滅的予測
- Authors: Mengxian Lyu, Cheng Peng, Ziyi Chen, Mengyuan Zhang, Jieting Li Lu, Yonghui Wu,
- Abstract要約: 医療領域では,医療負担軽減のための医療資料として,大規模言語モデルが採用されている。
研究によると、LSMはタスク固有の医療データセットを使用して微調整を行う際に、かなりの量の指示追従能力を「忘れる」ことがしばしばある。
本研究では,汎用LSMを医療領域に効率的に適用するためのモデル統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.955738714664276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have been adopted in the medical domain for clinical documentation to reduce clinician burden. However, studies have reported that LLMs often "forget" a significant amount of instruction-following ability when fine-tuned using a task-specific medical dataset, a critical challenge in adopting general-purpose LLMs for clinical applications. This study presents a model merging framework to efficiently adapt general-purpose LLMs to the medical domain by countering this forgetting issue. By merging a clinical foundation model (GatorTronLlama) with a general instruct model (Llama-3.1-8B-Instruct) via interpolation-based merge methods, we seek to derive a domain-adapted model with strong performance on clinical tasks while retaining instruction-following ability. Comprehensive evaluation across medical benchmarks and five clinical generation tasks (e.g., radiology and discharge summarization) shows that merged models can effectively mitigate catastrophic forgetting, preserve clinical domain expertise, and retain instruction-following ability. In addition, our model merging strategies demonstrate training efficiency, achieving performance on par with fully fine-tuned baselines under severely constrained supervision (e.g., 64-shot vs. 256-shot). Consequently, weight-space merging constitutes a highly scalable solution for adapting open-source LLMs to clinical applications, facilitating broader deployment in resource-constrained healthcare environments.
- Abstract(参考訳): 医療領域では,医療負担軽減のための医療資料として,大規模言語モデルが採用されている。
しかし、研究によると、LSMはタスク固有の医療データセットを用いて微調整を行う際に、かなりの量の命令追跡能力を「忘れる」ことがしばしばであり、臨床応用に汎用LSMを採用する上で重要な課題である。
本研究は, 汎用LSMを医療領域に効率よく適応させるためのモデル統合フレームワークを提案する。
臨床基礎モデル(GatorTronLlama)と一般的なインストラクションモデル(Llama-3.1-8B-Instruct)とを補間法に基づくマージ手法により融合させることにより,臨床タスクにおいて高いパフォーマンスのドメイン適応モデルを構築し,指導フォロー能力を維持した。
医療ベンチマークと5つの臨床生成タスク(例えば、放射線学、放電要約)の総合的な評価は、統合モデルが破滅的な忘れを効果的に軽減し、臨床領域の専門知識を維持し、指示追従能力を維持できることを示している。
さらに,モデルのマージ戦略はトレーニング効率を実証し,厳密な監督(64ショット対256ショット対64ショット)の下で完全に微調整されたベースラインに匹敵する性能を達成する。
その結果、重み空間のマージは、オープンソースのLCMを臨床応用に適用するための、高度にスケーラブルなソリューションとなり、リソースに制約のある医療環境へのより広範な展開を容易にする。
関連論文リスト
- A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - Large Language Models are Powerful Electronic Health Record Encoders [2.310631440585048]
汎用大規模言語モデルは、下流臨床予測タスクの表現にERHをエンコードするために使用される。
本手法は, 機関固有の訓練を必要とせず, 医用コードにテキスト記述を組み込むことが可能である。
LLMに基づくモデルでは, 発症, 入院, 死亡率の予測に優れた性能を示し, 集団に対する堅牢性, コーディングシフトを示す。
論文 参考訳(メタデータ) (2025-02-24T18:30:36Z) - Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare [16.79952669254101]
本稿では,大規模言語モデルによる構造化された臨床データ処理を実現するための知識誘導型インコンテキスト学習フレームワークを提案する。
このアプローチでは、ドメイン固有の機能グループ化、慎重にバランスのとれた数ショットの例、タスク固有のプロンプト戦略を統合する。
論文 参考訳(メタデータ) (2024-05-10T06:52:44Z) - Developing Healthcare Language Model Embedding Spaces [0.20971479389679337]
事前トレーニングされた大規模言語モデル(LLM)は、医療中心のテキストのようなドメイン外のデータセットに苦労することが多い。
従来のマスキング言語モデリング、Deep Contrastive Learning for Unsupervised Textual Representations(DeCLUTR)、およびヘルスケア設定からメタデータカテゴリを利用する新しい事前学習目標の3つの手法が評価されている。
対照的に訓練されたモデルは、分類タスクにおける他のアプローチよりも優れており、限られたラベル付きデータから強力なパフォーマンスを提供し、必要なモデルパラメータの更新を少なくする。
論文 参考訳(メタデータ) (2024-03-28T19:31:32Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Natural Language Programming in Medicine: Administering Evidence Based Clinical Workflows with Autonomous Agents Powered by Generative Large Language Models [29.05425041393475]
ジェネレーティブ・大型言語モデル(LLM)は医療において大きな可能性を秘めている。
本研究は, シミュレーション3次医療センターにおいて, 自律型エージェントとして機能するLSMの可能性を評価した。
論文 参考訳(メタデータ) (2024-01-05T15:09:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。