論文の概要: Advancing Italian Biomedical Information Extraction with Large Language
Models: Methodological Insights and Multicenter Practical Application
- arxiv url: http://arxiv.org/abs/2306.05323v1
- Date: Thu, 8 Jun 2023 16:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 13:28:32.107375
- Title: Advancing Italian Biomedical Information Extraction with Large Language
Models: Methodological Insights and Multicenter Practical Application
- Title(参考訳): 大規模言語モデルを用いたイタリアの生物医学情報抽出:方法論的考察と多施設活用
- Authors: Claudio Crema, Tommaso Mario Buonocore, Silvia Fostinelli, Enea
Parimbelli, Federico Verde, Cira Fundar\`o, Marina Manera, Matteo Cotta
Ramusino, Marco Capelli, Alfredo Costa, Giuliano Binetti, Riccardo Bellazzi
and Alberto Redolfi
- Abstract要約: 自然言語処理のサブフィールドである情報抽出は、臨床実践者がこの制限を克服するのに役立ちます。
イタリアで初めての神経心理学的名前付きエンティティ認識データセットであるPsyNITを作成し,そのタスクのための大規模言語モデルの開発に利用した。
実効的なマルチセンターモデルを実装するために、3つの外部独立データセットを用いていくつかの実験を行った。
- 参考スコア(独自算出の注目度): 0.6993856979609652
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The introduction of computerized medical records in hospitals has reduced
burdensome operations like manual writing and information fetching. However,
the data contained in medical records are still far underutilized, primarily
because extracting them from unstructured textual medical records takes time
and effort. Information Extraction, a subfield of Natural Language Processing,
can help clinical practitioners overcome this limitation, using automated
text-mining pipelines. In this work, we created the first Italian
neuropsychiatric Named Entity Recognition dataset, PsyNIT, and used it to
develop a Large Language Model for this task. Moreover, we conducted several
experiments with three external independent datasets to implement an effective
multicenter model, with overall F1-score 84.77%, Precision 83.16%, Recall
86.44%. The lessons learned are: (i) the crucial role of a consistent
annotation process and (ii) a fine-tuning strategy that combines classical
methods with a "few-shot" approach. This allowed us to establish methodological
guidelines that pave the way for future implementations in this field and allow
Italian hospitals to tap into important research opportunities.
- Abstract(参考訳): 病院におけるコンピュータ化された医療記録の導入により、手書きや情報収集などの負担が軽減された。
しかし、医療記録に含まれるデータは、主に構造化されていない医療記録から抽出するのに時間と労力を要するため、いまだに未利用である。
自然言語処理のサブフィールドである情報抽出は、自動テキストマイニングパイプラインを使用して、臨床実践者がこの制限を克服するのに役立つ。
本研究では,イタリアで初めての神経心理学的名称付きエンティティ認識データセットであるPsyNITを作成し,これを用いて大規模言語モデルを構築した。
さらに,3つの外部独立データセットを用いて,f1-score 84.77%,精度83.16%,リコール86.44%という,効果的なマルチセンタモデルを実現する実験を行った。
学んだ教訓は次のとおりである。
(i)一貫したアノテーションプロセスの重要な役割
(ii)古典的な方法と「フェウショット」アプローチを組み合わせた微調整戦略。
これにより、この分野における将来の実装への道を開くための方法論的ガイドラインを確立し、イタリアの病院が重要な研究機会を活用できるようにしました。
関連論文リスト
- GAMedX: Generative AI-based Medical Entity Data Extractor Using Large Language Models [1.123722364748134]
本稿では,Large Language Models(LLMs)を利用した名前付きエンティティ認識(NER)アプローチであるGAMedXを紹介する。
この方法論は、NERのためのオープンソースのLCMを統合し、特殊な医学用語の複雑さをナビゲートするために、連鎖プロンプトとピダンティックスキーマを構造化出力に利用している。
その結果, 評価データセットの1つに対して, 98%の精度でROUGE F1の有意なスコアが得られた。
論文 参考訳(メタデータ) (2024-05-31T02:53:22Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Application of Transformers based methods in Electronic Medical Records:
A Systematic Literature Review [77.34726150561087]
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-04-05T22:19:42Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - A Unified Framework of Medical Information Annotation and Extraction for
Chinese Clinical Text [1.4841452489515765]
現在の最先端(SOTA)NLPモデルは、ディープラーニング技術と高度に統合されている。
本研究では,医学的実体認識,関係抽出,属性抽出の工学的枠組みを提案する。
論文 参考訳(メタデータ) (2022-03-08T03:19:16Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Automated tabulation of clinical trial results: A joint entity and
relation extraction approach with transformer-based language representations [5.825190876052148]
本稿では,2つの言語処理タスク間で問題を分解し,エビデンス表の自動生成について検討する。
本稿では,実践成果を報告するRCT要約文の自動集計に着目する。
これらのモデルを訓練し、試験するために、6つの疾患領域から600近い結果文を含む新しいゴールドスタンダードコーパスが開発された。
論文 参考訳(メタデータ) (2021-12-10T15:26:43Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Med7: a transferable clinical natural language processing model for
electronic health records [6.935142529928062]
本稿では,臨床自然言語処理のための匿名認識モデルを提案する。
このモデルは、薬物名、ルート、頻度、摂取量、強度、形態、期間の7つのカテゴリを認識するよう訓練されている。
本研究は、米国における集中治療室のデータから、英国における二次医療精神保健記録(CRIS)へのモデル導入可能性を評価するものである。
論文 参考訳(メタデータ) (2020-03-03T00:55:43Z) - Comparing Rule-based, Feature-based and Deep Neural Methods for
De-identification of Dutch Medical Records [4.339510167603376]
オランダの医療機関9施設と3つのドメインのデータをサンプリングし,1260人の医療記録からなる多様なデータセットを構築した。
言語とドメイン間での3つの非識別手法の一般化性をテストする。
論文 参考訳(メタデータ) (2020-01-16T09:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。