論文の概要: Clinical named entity recognition in the Portuguese language: a benchmark of modern BERT models and LLMs
- arxiv url: http://arxiv.org/abs/2603.26510v1
- Date: Fri, 27 Mar 2026 15:22:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.564818
- Title: Clinical named entity recognition in the Portuguese language: a benchmark of modern BERT models and LLMs
- Title(参考訳): ポルトガル語における臨床名実体認識 : 最新のBERTモデルとLLMのベンチマーク
- Authors: Vinicius Anjos de Almeida, Sandro Saorin da Silva, Josimar Chire, Leonardo Vicenzi, Nícolas Henrique Borges, Helena Kociolek, Sarah Miriã de Castro Rocha, Frederico Nassif Gomes, Júlia Cristina Ferreira, Oge Marques, Lucas Emanuel Silva e Oliveira,
- Abstract要約: ポルトガルにおける臨床NERに対するBERTモデルと大規模言語モデル(LLM)の評価を行った。
我々は,BioBERTpt,BERTimbau,ModernBERT,mmBERTをGPT-5,Gemini-2.5などのLLMと比較した。
mmBERTベースのモデルは最高の性能(マイクロF1 = 0.76)を達成し、他の全てのモデルより優れていた。
- 参考スコア(独自算出の注目度): 1.6114494927075578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical notes contain valuable unstructured information. Named entity recognition (NER) enables the automatic extraction of medical concepts; however, benchmarks for Portuguese remain scarce. In this study, we aimed to evaluate BERT-based models and large language models (LLMs) for clinical NER in Portuguese and to test strategies for addressing multilabel imbalance. We compared BioBERTpt, BERTimbau, ModernBERT, and mmBERT with LLMs such as GPT-5 and Gemini-2.5, using the public SemClinBr corpus and a private breast cancer dataset. Models were trained under identical conditions and evaluated using precision, recall, and F1-score. Iterative stratification, weighted loss, and oversampling were explored to mitigate class imbalance. The mmBERT-base model achieved the best performance (micro F1 = 0.76), outperforming all other models. Iterative stratification improved class balance and overall performance. Multilingual BERT models, particularly mmBERT, perform strongly for Portuguese clinical NER and can run locally with limited computational resources. Balanced data-splitting strategies further enhance performance.
- Abstract(参考訳): 臨床ノートには貴重な構造化されていない情報が含まれている。
名前付きエンティティ認識(NER)は医療概念の自動抽出を可能にするが、ポルトガル語のベンチマークは乏しい。
本研究では,ポルトガルにおける臨床NERのためのBERTモデルと大規模言語モデル (LLM) の評価と,多ラベル不均衡に対処するための戦略を検証することを目的とした。
公共のSemClinBrコーパスとプライベート乳癌データセットを用いて,BioBERTpt,BERTimbau,ModernBERT,mmBERTをGPT-5,Gemini-2.5などのLLMと比較した。
モデルは同一条件下で訓練され、精度、リコール、F1スコアを用いて評価された。
クラス不均衡を軽減するため,反復成層,重み付き損失およびオーバーサンプリングを検討した。
mmBERTベースのモデルは最高の性能(マイクロF1 = 0.76)を達成し、他の全てのモデルより優れていた。
反復的な階層化により、クラスバランスと全体的なパフォーマンスが改善された。
マルチリンガルBERTモデル、特にmmBERTはポルトガルのNERに対して強く機能し、限られた計算資源でローカルに実行できる。
バランスの取れたデータ分割戦略により、さらにパフォーマンスが向上する。
関連論文リスト
- A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - Information Extraction from Clinical Notes: Are We Ready to Switch to Large Language Models? [16.312594953592665]
大規模言語モデル(LLM)は生成タスクに優れるが、抽出タスクのパフォーマンスについては議論が続いている。
本研究は,オープンソースLLMを用いた包括的臨床用IEシステムの開発と評価を行った最初の試みである。
論文 参考訳(メタデータ) (2024-11-15T07:54:19Z) - WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions [46.60244609728416]
言語モデル (LMs) は, 予後不良のリスクが高まれば, 臨床実習におけるモデルの実用性に対するリトマステストにはならない可能性がある, メンタルヘルスの分野では, 言語モデル (LMs) が提案されている。
ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。
LM/LLMの4つの驚くべき結果が明らかになった。
論文 参考訳(メタデータ) (2024-06-17T19:50:40Z) - A Benchmark Evaluation of Clinical Named Entity Recognition in French [4.430193084761607]
バイオメディカルモデルであるCamemBERT-bioとDrBERTを評価し,標準フランスのモデルであるCamemBERT,FrauBERT,FrALBERTと比較した。
その結果,CamemBERT-bioはDrBERTを一貫して上回り,FrauBERTは競争性能を示し,FrAlBERTは最も低い炭素プリントを達成することが示唆された。
論文 参考訳(メタデータ) (2024-03-28T07:59:58Z) - Exploring the Value of Pre-trained Language Models for Clinical Named
Entity Recognition [6.917786124918387]
我々は、スクラッチからトレーニングされたTransformerモデルと、細調整されたBERTベースのLLMを比較した。
文脈学習を促進するために,追加のCRF層がそのようなモデルに与える影響を検討する。
論文 参考訳(メタデータ) (2022-10-23T16:27:31Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Fine-Tuning Large Neural Language Models for Biomedical Natural Language
Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。
我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。
これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:20:35Z) - Performance of Dual-Augmented Lagrangian Method and Common Spatial
Patterns applied in classification of Motor-Imagery BCI [68.8204255655161]
運動画像に基づく脳-コンピュータインタフェース(MI-BCI)は、神経リハビリテーションのための画期的な技術になる可能性がある。
使用する脳波信号のノイズの性質のため、信頼性の高いBCIシステムは特徴の最適化と抽出のために特別な手順を必要とする。
論文 参考訳(メタデータ) (2020-10-13T20:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。