Fugu-MT 論文翻訳(概要): Can Continual Pre-training Bridge the Performance Gap between General-purpose and Specialized Language Models in the Medical Domain?

論文の概要: Can Continual Pre-training Bridge the Performance Gap between General-purpose and Specialized Language Models in the Medical Domain?

arxiv url: http://arxiv.org/abs/2604.19394v1
Date: Tue, 21 Apr 2026 12:19:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 22:41:49.758196
Title: Can Continual Pre-training Bridge the Performance Gap between General-purpose and Specialized Language Models in the Medical Domain?
Title（参考訳）: 医学領域における汎用言語モデルと特化言語モデルのパフォーマンス向上を継続する事前学習ブリッジは可能か?
Authors: Niclas Doll, Jasper Schulze Buschhoff, Shalaka Satheesh, Hammam Abdelwahab, Héctor Allende-Cid, Katrin Klug,
Abstract要約: FineWeb2から高品質なドイツの医療コーパス(FineMed-de)を構築します。このコーパスは、3つの有名なLCMを継続的に事前訓練し、マージするために使用される。包括的な評価では、ドイツの医療ベンチマークにおいて、専門化によって700億ドルのモデルパフォーマンスが劇的に向上することが確認されている。
参考スコア（独自算出の注目度）: 1.8065388020741275
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper narrows the performance gap between small, specialized models and significantly larger general-purpose models through domain adaptation via continual pre-training and merging. We address the scarcity of specialized non-English data by constructing a high-quality German medical corpus (FineMed-de) from FineWeb2. This corpus is used to continually pre-train and merge three well-known LLMs (ranging from $7B$ to $24B$ parameters), creating the DeFineMed model family. A comprehensive evaluation confirms that specialization dramatically enhances $7B$ model performance on German medical benchmarks. Furthermore, the pairwise win-rate analysis of the Qwen2.5-based models demonstrates an approximately $3.5$-fold increase in the win-rate against the much larger Mistral-Small-24B-Instruct through domain adaptation. This evidence positions specialized $7B$ models as a competitive, resource-efficient solution for complex medical instruction-following tasks. While model merging successfully restores instruction-following abilities, a subsequent failure mode analysis reveals inherent trade-offs, including the introduction of language mixing and increased verbosity, highlighting the need for more targeted fine-tuning in future work. This research provides a robust, compliant methodology for developing specialized LLMs, serving as the foundation for practical use in German-speaking healthcare contexts.
Abstract（参考訳）: 本稿では、連続的な事前学習とマージによるドメイン適応により、小規模で特殊なモデルとはるかに大きな汎用モデルのパフォーマンスギャップを狭める。我々は、FineWeb2から高品質なドイツの医療コーパス(FineMed-de)を構築することで、専門的な非英語データの不足に対処する。このコーパスは、よく知られた3つのLLM(7B$から24B$パラメータ)を継続的に事前トレーニングし、マージするために使用され、DeFineMedモデルファミリを生成する。包括的な評価では、ドイツの医療ベンチマークにおいて、専門化によって700億ドルのモデルパフォーマンスが劇的に向上することが確認されている。さらに、Qwen2.5ベースのモデルのペアワイズ・ウィンレート解析は、ドメイン適応によるより大きなMistral-Small-24B-インストラクトに対するウィンレートの約3.5ドルの上昇を示す。この証拠は、複雑な医療指導フォロータスクのための競争力のあるリソース効率の高いソリューションとして、700億ドルのモデルに特化している。モデルマージは命令追従能力の回復に成功しているが、その後のフェールモード解析では、言語混合の導入や冗長性の増大など、固有のトレードオフを明らかにし、将来の作業においてよりターゲットを絞った微調整の必要性を強調している。この研究は、専門的なLSMを開発するための堅牢でコンプライアンスのとれた方法論を提供し、ドイツ語を話す医療の文脈における実践的利用の基礎として役立っている。

関連論文リスト

Is Biomedical Specialization Still Worth It? Insights from Domain-Adaptive Language Modelling with a New French Health Corpus [6.725200230250009]
本研究では,フランスの生物医学領域における中小LSMの専門化戦略として,DAPT(Domain-Adaptive Pre-Training)について検討した。私たちのコントリビューションには、商用およびオープンソースアプリケーションに適した、完全にライセンスされたフランスのバイオメディカルコーパスのリリースが含まれています。
論文参考訳（メタデータ） (2026-04-08T09:59:50Z)
MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文参考訳（メタデータ） (2025-10-24T02:11:05Z)
mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning [74.97363626515236]
textbfSkill ベースの textbfCommonsense textbfReasoning (textbfmSCoRe) のための textbfMultilingual と Scalable Benchmark を提案する。本ベンチマークでは,LLMの推論能力を体系的に評価するための3つの重要な要素を取り入れた。本研究は,多言語多言語一般と文化的共通点に直面する場合,そのような推論強化モデルの限界を明らかにするものである。
論文参考訳（メタデータ） (2025-08-13T18:59:02Z)
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [45.08958917457921]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Adapting LLMs for the Medical Domain in Portuguese: A Study on Fine-Tuning and Model Evaluation [1.922611370494431]
本研究は,ポルトガル語における医療エージェントとしての大規模言語モデル(LLM)の性能を評価する。 InternLM2モデルは、当初医療データに関するトレーニングを受けており、全体的なパフォーマンスが最高であった。 ChatBodeから派生したDrBodeモデルは、取得した医療知識を壊滅的に忘れる現象を示した。
論文参考訳（メタデータ） (2024-09-30T19:10:03Z)
LLMs-in-the-loop Part-1: Expert Small AI Models for Bio-Medical Text Translation [0.0]
本研究では,医療用テキストに最適化された教師ありニューラルマシン翻訳モデルを開発するために,新しい"LLMs-in-the-loop"アプローチを提案する。 6つの言語での独自の平行コーパスは、科学論文、人工的に生成された臨床文書、医療文書から編纂された。 MarianMTベースのモデルは、Google Translate、DeepL、GPT-4-Turboより優れている。
論文参考訳（メタデータ） (2024-07-16T19:32:23Z)
Towards Building Multilingual Language Model for Medicine [54.1382395897071]
6つの主要言語を含む約25.5Bトークンを含む多言語医療コーパスを構築した。 MMedBench と呼ばれる有理性を持つ多言語医療用多言語質問応答ベンチマークを提案する。我々の最終モデルであるMMed-Llama 3は、8Bパラメータしか持たないが、MMedBenchおよび英語ベンチマークの他のすべてのオープンソースモデルと比較して優れた性能が得られる。
論文参考訳（メタデータ） (2024-02-21T17:47:20Z)
DAEDRA: A language model for predicting outcomes in passive pharmacovigilance reporting [0.0]
DAEDRAは、有害事象報告における規制関連結果を検出するために設計された大きな言語モデルである。本稿では,DAEDRAの概念,設計,訓練,評価について述べる。
論文参考訳（メタデータ） (2024-02-10T16:48:45Z)
SANSformers: Self-Supervised Forecasting in Electronic Health Records with Attention-Free Models [48.07469930813923]
本研究は,医療施設への患者訪問数を予測することにより,医療サービスの需要を予測することを目的とする。 SNSformerは、特定の帰納バイアスを設計し、EHRデータの特異な特徴を考慮に入れた、注意のない逐次モデルである。本研究は, 各種患者集団を対象とした医療利用予測の修正における, 注意力のないモデルと自己指導型事前訓練の有望な可能性について考察した。
論文参考訳（メタデータ） (2021-08-31T08:23:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。