論文の概要: The Word and the Way: Strategies for Domain-Specific BERT Pre-Training in German Medical NLP
- arxiv url: http://arxiv.org/abs/2606.03250v1
- Date: Tue, 02 Jun 2026 07:10:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.828159
- Title: The Word and the Way: Strategies for Domain-Specific BERT Pre-Training in German Medical NLP
- Title(参考訳): ドイツ医学NLPにおける領域特化BERT事前研修の戦略
- Authors: Henry He, Johann Frei, Raphael Schmitt,
- Abstract要約: デジタルヘルスケアは、AI支援アプリケーションをサポートする膨大な量の臨床テキストを生成する。
ドメイン固有のRoBERTaベースの言語モデルであるChristBERTを13.5GBコーパスでトレーニングした。
- 参考スコア(独自算出の注目度): 0.08496348835248901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Digital healthcare generates vast amounts of clinical text that can support AI-assisted applications, yet German biomedical language models remain limited by older architectures or restricted training data. We present ChristBERT (Clinical- and Healthcare-Related Issues and Subjects Tuned BERT), a family of domain-specific German RoBERTa-based language models trained on a 13.5GB corpus of scientific publications, clinical texts, health-related web content, and translated clinical resources. To investigate the impact of domain adaptation strategies in German clinical NLP, we compare continued pre-training, training from scratch, and domain-specific vocabulary adaptation. The resulting models are evaluated on three medical named entity recognition tasks and two text classification tasks. ChristBERT consistently outperforms existing general-purpose and medical German language models on four of five benchmarks and establishes a new state of the art for German clinical language modeling. Our results show that the optimal adaptation strategy is task-dependent: in our evaluation, training from scratch is particularly effective for highly specialized clinical texts, whereas continued pre-training performs well on more commonly written medical texts. All models are publicly released to support future research and applications in German medical NLP.
- Abstract(参考訳): デジタルヘルスケアは、AI支援アプリケーションをサポートする膨大な量の臨床テキストを生成するが、ドイツのバイオメディカル言語モデルは、古いアーキテクチャや限られた訓練データによって制限されている。
筆者らは,13.5GBの学術出版物,臨床テキスト,健康関連ウェブコンテンツ,翻訳された臨床資料に基づいて訓練された,ドメイン固有ドイツ語RoBERTa言語モデルのファミリーであるChristBERT(Clinical- and Healthcare-Related Issues and Subjects Tuned BERT)について紹介する。
ドイツのNLPにおけるドメイン適応戦略の効果を検討するため, 継続トレーニング, スクラッチからのトレーニング, ドメイン固有語彙適応の比較を行った。
得られたモデルは、3つの医学的名前付きエンティティ認識タスクと2つのテキスト分類タスクで評価される。
ChristBERTは、5つのベンチマークのうち4つのベンチマークで既存の汎用的および医療的なドイツの言語モデルより一貫して優れており、ドイツの臨床言語モデリングのための新しい最先端技術を確立している。
評価では、スクラッチからのトレーニングは高度に専門的な臨床テキストに特に有効であるのに対し、継続したプレトレーニングはより一般的な医療テキストに有効である。
すべてのモデルは、ドイツの医学NLPにおける将来の研究と応用をサポートするために、一般公開されている。
関連論文リスト
- Automated ICD Classification of Psychiatric Diagnoses: From Classical NLP to Large Language Models [67.51123543731806]
メンタルヘルスは世界的な優先事項となり、臨床診断のコーディングにおける管理上の負担が大きくなった。
本研究では、自然言語処理(NLP)と機械学習(ML)技術を用いて、フリーテキスト記述を国際疾患分類(ICD)にマッピングすることで、精神医学的診断分析の自動化を提案する。
論文 参考訳(メタデータ) (2026-05-20T13:26:05Z) - Multilingual BERT language model for medical tasks: Evaluation on domain-specific adaptation and cross-linguality [1.6594309236462432]
本研究では,ドメイン固有コーパスの事前学習が,医療作業におけるモデルパフォーマンスに与える影響について検討した。
私たちはオランダ語、ルーマニア語、スペイン語の3つの言語に焦点を当てています。
論文 参考訳(メタデータ) (2025-10-31T15:28:01Z) - Comprehensive Study on German Language Models for Clinical and Biomedical Text Understanding [16.220303664681172]
我々は、翻訳された英語の医療データとドイツの臨床データの3Bトークンから2.4Bトークンを抽出し、いくつかのドイツの医療言語モデルを事前訓練した。
得られたモデルは、名前付きエンティティ認識(NER)、多ラベル分類、抽出質問応答など、様々なドイツの下流タスクで評価された。
本研究は, 臨床モデルとスクラッチからトレーニングした成績を一致させたり, 上回ったりする能力が, 連続事前訓練によって実証されていることを結論する。
論文 参考訳(メタデータ) (2024-04-08T17:24:04Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Biomedical and Clinical Language Models for Spanish: On the Benefits of
Domain-Specific Pretraining in a Mid-Resource Scenario [0.05277024349608833]
本研究は, 異なる事前学習選択を実験することにより, スペイン語の生物医学的, 臨床的言語モデルを示す。
モデルをスクラッチからトレーニングするための十分な臨床データがないため,混合ドメイン事前訓練法とクロスドメイン移行法を適用し,優れたバイオクリニカルモデルを構築した。
論文 参考訳(メタデータ) (2021-09-08T12:12:07Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual
Embeddings Using the Unified Medical Language System Metathesaurus [73.86656026386038]
事前学習プロセス中にドメイン知識を統合するコンテキスト埋め込みモデルであるUmlsBERTを紹介する。
これらの2つの戦略を適用することで、UmlsBERTは、臨床領域の知識を単語埋め込みにエンコードし、既存のドメイン固有モデルより優れている。
論文 参考訳(メタデータ) (2020-10-20T15:56:31Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。