論文の概要: MEDBERT.de: A Comprehensive German BERT Model for the Medical Domain
- arxiv url: http://arxiv.org/abs/2303.08179v1
- Date: Tue, 14 Mar 2023 18:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 15:40:41.805033
- Title: MEDBERT.de: A Comprehensive German BERT Model for the Medical Domain
- Title(参考訳): MEDBERT.de: 医学領域のための総合的なドイツのBERTモデル
- Authors: Keno K. Bressem and Jens-Michalis Papaioannou and Paul Grundmann and
Florian Borchert and Lisa C. Adams and Leonhard Liu and Felix Busch and Lina
Xu and Jan P. Loyen and Stefan M. Niehues and Moritz Augustin and Lennart
Grosser and Marcus R. Makowski and Hugo JWL. Aerts and Alexander L\"oser
- Abstract要約: medBERT.deは、ドイツの医療ドメイン向けに設計された、訓練済みのドイツのBERTモデルである。
このモデルは、ドイツの医療文書470万件の大規模なコーパスで訓練されている。
- 参考スコア(独自算出の注目度): 45.96917694724562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents medBERT.de, a pre-trained German BERT model specifically
designed for the German medical domain. The model has been trained on a large
corpus of 4.7 Million German medical documents and has been shown to achieve
new state-of-the-art performance on eight different medical benchmarks covering
a wide range of disciplines and medical document types. In addition to
evaluating the overall performance of the model, this paper also conducts a
more in-depth analysis of its capabilities. We investigate the impact of data
deduplication on the model's performance, as well as the potential benefits of
using more efficient tokenization methods. Our results indicate that
domain-specific models such as medBERT.de are particularly useful for longer
texts, and that deduplication of training data does not necessarily lead to
improved performance. Furthermore, we found that efficient tokenization plays
only a minor role in improving model performance, and attribute most of the
improved performance to the large amount of training data. To encourage further
research, the pre-trained model weights and new benchmarks based on
radiological data are made publicly available for use by the scientific
community.
- Abstract(参考訳): 本稿では,ドイツ医学領域に特化して設計された,事前訓練型ドイツのBERTモデルであるmedBERT.deについて述べる。
このモデルは470万のドイツの医療文書の大規模なコーパスで訓練されており、幅広い規律と医療文書のタイプをカバーする8つの異なる医療ベンチマークにおいて、新しい最先端のパフォーマンスを達成することが示されている。
本論文は,モデル全体の性能を評価することに加えて,その機能についてより詳細な分析を行う。
本研究では,データ重複がモデルの性能に与える影響と,より効率的なトークン化手法を使用することによる潜在的メリットについて検討する。
以上の結果から, medbert.de のようなドメイン固有モデルは長文に特に有用であり, トレーニングデータの重複は必ずしも性能の向上につながるとは限らない。
さらに,効率の良いトークン化はモデルの性能向上に小さな役割しか果たさないことを見出し,改善した性能のほとんどを大量のトレーニングデータに分類した。
さらなる研究を促進するために、事前訓練されたモデルウェイトと放射線データに基づく新しいベンチマークが科学コミュニティによって公開されている。
関連論文リスト
- Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - Deep Learning for Medical Image Segmentation: Tricks, Challenges and
Future Directions [66.40971096248946]
本稿では,モデル実装の異なるフェーズに対して,一連のMedISegトリックを収集する。
一貫性のあるベースラインモデルにおけるこれらのトリックの有効性を実験的に検討する。
調査したトリックに基づいて、強力なMedISegリポジトリもオープンソース化しました。
論文 参考訳(メタデータ) (2022-09-21T12:30:05Z) - UniHPF : Universal Healthcare Predictive Framework with Zero Domain
Knowledge [7.312345319231457]
Universal Healthcare Predictive Framework (UniHPF)は、大規模なEHRモデルを構築することができる。
我々のフレームワークは、マルチソース学習タスクにおいてベースラインモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-07-20T12:46:26Z) - BERT WEAVER: Using WEight AVERaging to Enable Lifelong Learning for
Transformer-based Models [69.54942445850462]
We present WEAVER, a simple, yet efficient post-processing method that infuse old knowledge into the new model。
WEAVERを逐次的に適用すると、同じ単語の埋め込み分布が、一度にすべてのデータに対する総合的なトレーニングとして得られることを示す。
論文 参考訳(メタデータ) (2022-02-21T10:34:41Z) - Enhancing Clinical Information Extraction with Transferred Contextual
Embeddings [9.143551270841858]
変換器(BERT)モデルによる双方向表現は、多くの自然言語処理(NLP)タスクにおいて最先端のパフォーマンスを達成した。
BERTをベースとした事前学習モデルは,軽度条件下で健康関連文書に転送可能であることを示す。
論文 参考訳(メタデータ) (2021-09-15T12:22:57Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z) - Pre-training technique to localize medical BERT and enhance biomedical
BERT [0.0]
高品質で大容量のデータベースが公開されていないドメインでうまく機能する特定のBERTモデルを訓練することは困難である。
本稿では,アップサンプリングと増幅語彙の同時事前学習という,一つの選択肢による1つの介入を提案する。
我が国の医療用BERTは,医学文書分類タスクにおいて,従来のベースラインおよび他のBERTモデルよりも優れていた。
論文 参考訳(メタデータ) (2020-05-14T18:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。