論文の概要: KliniskVestBERT: BERT Model Specialised to Norwegian Clinical Texts
- arxiv url: http://arxiv.org/abs/2606.01904v1
- Date: Mon, 01 Jun 2026 08:42:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.625206
- Title: KliniskVestBERT: BERT Model Specialised to Norwegian Clinical Texts
- Title(参考訳): KliniskVestBERT:ノルウェーの臨床的テキストに特化したBERTモデル
- Authors: Christian Autenried, Cosimo Persia,
- Abstract要約: この研究は、3つのBERTベースのエンコーダモデルのスイートであるKliniskVestBERTを紹介している。
このデータセットはHelse Vest患者の代表集団に基づいている。
含まれるドキュメントタイプは、bokmlとnynorskの幅広い臨床スペクトルを包含するように慎重にキュレートされる。
- 参考スコア(独自算出の注目度): 1.1295155648438413
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The increasing application of Natural Language Processing (NLP) in healthcare demands language models specifically attuned to the complexities of clinical language. This work introduces KliniskVestBERT, a suite of three BERT-based encoder models pre-trained on a substantial corpus of real-world, de-identified Norwegian clinical texts from Helse Vest. We continue pretraining existing language models Nb-BERT-large, NorBERT3-large, and ModernBERT on our specialized clinical dataset. This dataset is based on a representative population of Helse Vest patients. The included document types are carefully curated to encompass a broad clinical spectrum in bokmål and nynorsk including discharge summaries, surgical reports, nursing notes etc. ensuring comprehensive representation of the linguistic landscape within Norwegian healthcare settings. Evaluation on three synthtetic Norwegian clinical benchmark datasets and two real-world problems demonstrates that each of our clinically specialized models consistently outperforms their baseline counterparts, highlighting the significant benefit of domain-specific pre-training for NLP tasks within the clinical domain. The project was a joint effort by all Helse Vest entities (Helse Bergen, Helse Fonna, Helse Førde and Helse Stavanger) with DIPS under the project lead of Helse Vest ICT.
- Abstract(参考訳): 医療分野における自然言語処理(NLP)の応用は、臨床言語の複雑さに特化して言語モデルを必要とする。
この研究は、3つのBERTベースのエンコーダモデルのスイートであるKliniskVestBERTを紹介している。
既存の言語モデルであるNb-BERT-large、NorBERT3-large、ModernBERTを専門的な臨床データセットで事前訓練し続けている。
このデータセットはHelse Vest患者の代表集団に基づいている。
包含された文書タイプは、ノルウェーの医療環境における言語景観の包括的表現を確保するために、吐出サマリー、手術報告、看護ノートなどを含む、Bokmålとnynorskの幅広い臨床スペクトルを包含するように慎重にキュレートされる。
ノルウェーの3つの総合的臨床ベンチマークデータセットと2つの実世界の問題による評価は、臨床専門モデルそれぞれが、臨床領域内のNLPタスクに対するドメイン固有の事前トレーニングの有意義なメリットを強調して、ベースラインモデルよりも一貫して優れていることを示している。
このプロジェクトは、Helse Vest ICTのプロジェクトリーダーの下で、すべてのHelse Vestの団体(Helse Bergen、Helse Fonna、Helse Førde、Helse Stavanger)とDIPSの共同作業であった。
関連論文リスト
- ClinicalEncoder26AM: A Multlilingual Diagnosable ColBERT Model; Evidences from the MultiClinNER Shared Task [1.6904475483445454]
ClinicalEncoder26AMは、臨床およびバイオメディカルテキストのための多言語診断可能なColBERTである。
患者症状, 障害, 手術スパンに対するBIOタグを微調整し, マルチClinNER共有タスクにおけるモデルの評価を行った。
論文 参考訳(メタデータ) (2026-05-27T14:20:45Z) - ClinText-SP and RigoBERTa Clinical: a new set of open resources for Spanish Clinical NLP [0.5325390073522079]
ClinText-SPと最新の臨床エンコーダ言語モデルであるRigoBERTa Clinicalをリリースする。
本研究のコーパスは,医療雑誌の症例や共有タスクからの注釈付きコーパスなど,様々なオープンソースから慎重にキュレートされた。
RigoBERTa Clinicalは、ドメイン適応型事前トレーニングによって開発され、複数のNLPベンチマークで既存のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-03-24T11:52:17Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - SoftTiger: A Clinical Foundation Model for Healthcare Workflows [5.181665205189493]
医療基盤モデルとして設計された臨床用大規模言語モデル(CLaM)であるSoftTigerを紹介する。
我々は,3つのサブタスク,すなわち国際患者要約,臨床印象,医療的出会いのデータを収集し,注釈する。
公立および認証臨床データを用いて,最先端のLCMの微調整を指導した。
論文 参考訳(メタデータ) (2024-03-01T04:39:16Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。