論文の概要: Is Biomedical Specialization Still Worth It? Insights from Domain-Adaptive Language Modelling with a New French Health Corpus
- arxiv url: http://arxiv.org/abs/2604.06903v1
- Date: Wed, 08 Apr 2026 09:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.471636
- Title: Is Biomedical Specialization Still Worth It? Insights from Domain-Adaptive Language Modelling with a New French Health Corpus
- Title(参考訳): バイオメディカル・スペシャライゼーションはいまだに価値があるか? : ドメイン適応型言語モデリングとフランスの新しいヘルス・コーパス
- Authors: Aidan Mannion, Cécile Macaire, Armand Violle, Stéphane Ohayon, Xavier Tannier, Didier Schwab, Lorraine Goeuriot, François Portet,
- Abstract要約: 本研究では,フランスの生物医学領域における中小LSMの専門化戦略として,DAPT(Domain-Adaptive Pre-Training)について検討した。
私たちのコントリビューションには、商用およびオープンソースアプリケーションに適した、完全にライセンスされたフランスのバイオメディカルコーパスのリリースが含まれています。
- 参考スコア(独自算出の注目度): 6.725200230250009
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across diverse domains, yet their adaptation to specialized fields remains challenging, particularly for non-English languages. This study investigates domain-adaptive pre-training (DAPT) as a strategy for specializing small to mid-sized LLMs in the French biomedical domain through continued pre-training. We address two key research questions: the viability of specialized continued pre-training for domain adaptation and the relationship between domain-specific performance gains and general capability degradation. Our contributions include the release of a fully open-licensed French biomedical corpus suitable for commercial and open-source applications, the training and release of specialized French biomedical LLMs, and novel insights for DAPT implementation. Our methodology encompasses the collection and refinement of high-quality French biomedical texts, the exploration of causal language modeling approaches using DAPT, and conducting extensive comparative evaluations. Our results cast doubt on the efficacy of DAPT, in contrast to previous works, but we highlight its viability in smaller-scale, resource-constrained scenarios under the right conditions. Findings in this paper further suggest that model merging post-DAPT is essential to mitigate generalization trade-offs, and in some cases even improves performance on specialized tasks at which the DAPT was directed.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な分野にまたがる顕著な能力を示してきたが、特に非英語言語において、専門分野への適応は困難である。
本研究では,フランスの生物医学領域における小・中規模のLSMの育成戦略として,DAPT(Domain-adaptive pre-training)について検討した。
ドメイン適応のための専門的な継続事前訓練の実施可能性と、ドメイン固有のパフォーマンス向上と一般的な能力低下の関係について、2つの主要な研究課題に対処する。
私たちのコントリビューションには、商用およびオープンソースアプリケーションに適した、完全にライセンスされたフランスのバイオメディカルコーパスのリリース、専門的なフランスのバイオメディカルLLMのトレーニングとリリース、DAPT実装のための新しい洞察が含まれている。
本手法は,高品質なフランスのバイオメディカルテキストの収集と改良,DAPTを用いた因果的言語モデリング手法の探索,広範囲な比較評価を含む。
本研究は, DAPTの有効性に疑問を投げかけたが, 適切な条件下での小規模かつ資源制約のあるシナリオにおいて, DAPTの有効性を強調した。
本稿では,DAPT後のモデル統合が一般化トレードオフの緩和に不可欠であることをさらに示唆し,DAPTが指示された特殊タスクの性能向上にも寄与する。
関連論文リスト
- Improving Multilingual Math Reasoning for African Languages [49.27985213689457]
データタイプ(翻訳と合成)、トレーニングステージ(事前学習と後学習)、その他のモデル適応構成の異なる組み合わせを評価する実験を行う。
実験では,Llama 3.1 モデルファミリをベースモデルとして,数学的推論タスクに着目した。
論文 参考訳(メタデータ) (2025-05-26T11:35:01Z) - Generalization of Medical Large Language Models through Cross-Domain Weak Supervision [0.0]
医療用大規模言語モデル(MLLM)の生成能力を高めるためのICFTフレームワークを提案する。
ICFTはカリキュラムベースの学習、二段階記憶調整、パラメータ効率の微調整を組み合わせて、一般的な言語知識から強力なドメイン固有の専門知識への移行を可能にする。
論文 参考訳(メタデータ) (2025-02-02T16:05:23Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - LLMs-in-the-loop Part-1: Expert Small AI Models for Bio-Medical Text Translation [0.0]
本研究では,医療用テキストに最適化された教師ありニューラルマシン翻訳モデルを開発するために,新しい"LLMs-in-the-loop"アプローチを提案する。
6つの言語での独自の平行コーパスは、科学論文、人工的に生成された臨床文書、医療文書から編纂された。
MarianMTベースのモデルは、Google Translate、DeepL、GPT-4-Turboより優れている。
論文 参考訳(メタデータ) (2024-07-16T19:32:23Z) - DAEDRA: A language model for predicting outcomes in passive
pharmacovigilance reporting [0.0]
DAEDRAは、有害事象報告における規制関連結果を検出するために設計された大きな言語モデルである。
本稿では,DAEDRAの概念,設計,訓練,評価について述べる。
論文 参考訳(メタデータ) (2024-02-10T16:48:45Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - Biomedical and Clinical Language Models for Spanish: On the Benefits of
Domain-Specific Pretraining in a Mid-Resource Scenario [0.05277024349608833]
本研究は, 異なる事前学習選択を実験することにより, スペイン語の生物医学的, 臨床的言語モデルを示す。
モデルをスクラッチからトレーニングするための十分な臨床データがないため,混合ドメイン事前訓練法とクロスドメイン移行法を適用し,優れたバイオクリニカルモデルを構築した。
論文 参考訳(メタデータ) (2021-09-08T12:12:07Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。