論文の概要: Identifying and Extracting Rare Disease Phenotypes with Large Language
Models
- arxiv url: http://arxiv.org/abs/2306.12656v1
- Date: Thu, 22 Jun 2023 03:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 15:36:15.164550
- Title: Identifying and Extracting Rare Disease Phenotypes with Large Language
Models
- Title(参考訳): 大規模言語モデルを用いた希少疾患現象の同定と抽出
- Authors: Cathy Shyr, Yan Hu, Paul A. Harris, Hua Xu
- Abstract要約: ChatGPTは、複雑な人間のプロンプトに従い、高品質な応答を生成することができる革命的な大規模言語モデルである。
従来の微調整手法と比較し,詳細な誤差解析を行った。
ChatGPTは1ショット設定で、特定の実体(まれな疾患や徴候)に対して類似または高い精度を達成した。
- 参考スコア(独自算出の注目度): 12.555067118549347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rare diseases (RDs) are collectively common and affect 300 million people
worldwide. Accurate phenotyping is critical for informing diagnosis and
treatment, but RD phenotypes are often embedded in unstructured text and
time-consuming to extract manually. While natural language processing (NLP)
models can perform named entity recognition (NER) to automate extraction, a
major bottleneck is the development of a large, annotated corpus for model
training. Recently, prompt learning emerged as an NLP paradigm that can lead to
more generalizable results without any (zero-shot) or few labeled samples
(few-shot). Despite growing interest in ChatGPT, a revolutionary large language
model capable of following complex human prompts and generating high-quality
responses, none have studied its NER performance for RDs in the zero- and
few-shot settings. To this end, we engineered novel prompts aimed at extracting
RD phenotypes and, to the best of our knowledge, are the first the establish a
benchmark for evaluating ChatGPT's performance in these settings. We compared
its performance to the traditional fine-tuning approach and conducted an
in-depth error analysis. Overall, fine-tuning BioClinicalBERT resulted in
higher performance (F1 of 0.689) than ChatGPT (F1 of 0.472 and 0.591 in the
zero- and few-shot settings, respectively). Despite this, ChatGPT achieved
similar or higher accuracy for certain entities (i.e., rare diseases and signs)
in the one-shot setting (F1 of 0.776 and 0.725). This suggests that with
appropriate prompt engineering, ChatGPT has the potential to match or
outperform fine-tuned language models for certain entity types with just one
labeled sample. While the proliferation of large language models may provide
opportunities for supporting RD diagnosis and treatment, researchers and
clinicians should critically evaluate model outputs and be well-informed of
their limitations.
- Abstract(参考訳): 希少疾患(RD)は総じて一般的であり、全世界で3億人に影響を及ぼす。
正確な表現型付けは診断や治療に重要であるが、RD表現型はしばしば非構造化テキストに埋め込まれ、手動で抽出するのに時間がかかる。
自然言語処理(nlp)モデルは、抽出を自動化するために名前付きエンティティ認識(ner)を実行できるが、大きなボトルネックは、モデルトレーニングのための大きな注釈付きコーパスの開発である。
近年、高速学習はNLPパラダイムとして出現し、ゼロショット(ゼロショット)や少数のラベル付きサンプル(ファウショット)を使わずにより一般化可能な結果をもたらすことができる。
ChatGPTは複雑な人間のプロンプトに従い、高品質な応答を生成できる革命的な大規模言語モデルであるが、ゼロショットと少数ショットの設定でRDのNER性能を研究していない。
そこで我々は,RD表現型を抽出する新しいプロンプトを設計し,これらの設定でChatGPTの性能を評価するためのベンチマークを最初に確立した。
その性能を従来の微調整手法と比較し,詳細な誤差解析を行った。
総じて、微調整されたバイオクリニカルバートはchatgptよりも高い性能(0.689のf1(0.472のf1と0.91のゼロショットと少数ショットの設定でそれぞれ0.591)をもたらした。
これにもかかわらず、ChatGPTは単発設定(F1は0.776、0.725)において、特定の実体(まれな疾患や兆候)に対して類似または高い精度を達成した。
このことは、適切なプロンプトエンジニアリングにより、ChatGPTは1つのラベル付きサンプルで特定のエンティティタイプに対して微調整された言語モデルに適合または性能を向上する可能性があることを示唆している。
大きな言語モデルの増殖はRDの診断と治療を支援する機会を与えるかもしれないが、研究者や臨床医はモデルのアウトプットを批判的に評価し、それらの限界を十分に表現する必要がある。
関連論文リスト
- Leveraging Prompt-Learning for Structured Information Extraction from Crohn's Disease Radiology Reports in a Low-Resource Language [11.688665498310405]
SMP-BERTは、自由テキストラジオグラフィーレポートを自動的に構造化データに変換する新しいプロンプト学習法である。
そこで本研究では,SMP-BERTが従来の微調整法をはるかに上回った。
論文 参考訳(メタデータ) (2024-05-02T19:11:54Z) - Use GPT-J Prompt Generation with RoBERTa for NER Models on Diagnosis
Extraction of Periodontal Diagnosis from Electronic Dental Records [6.636721448099117]
GPT-Jモデルによる即時生成は、金標準を試験し、種を生成するために利用された。
性能はF1スコアで0.92-0.97と、RoBERTaモデルでトレーニングした後の全ての設定で整合性を示した。
論文 参考訳(メタデータ) (2023-11-17T18:14:08Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - An evaluation of GPT models for phenotype concept recognition [0.4715973318447338]
臨床表現型および表現型アノテーションのためのGPT(Generative Pre-trained Transformer)モデルの性能について検討した。
その結果、適切な設定で、これらのモデルが芸術的パフォーマンスの状態を達成できることが示されている。
論文 参考訳(メタデータ) (2023-09-29T12:06:55Z) - Large Language Models to Identify Social Determinants of Health in
Electronic Health Records [2.168737004368243]
健康の社会的決定因子(SDoH)は、患者の結果に重要な影響を与えるが、電子健康記録(EHR)から不完全に収集される。
本研究では,EHRにおける自由テキストからSDoHを抽出する大規模言語モデルについて検討した。
800の患者ノートをSDoHカテゴリーにアノテートし,いくつかのトランスフォーマーモデルを評価した。
論文 参考訳(メタデータ) (2023-08-11T19:18:35Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - Exploring the Trade-Offs: Unified Large Language Models vs Local
Fine-Tuned Models for Highly-Specific Radiology NLI Task [49.50140712943701]
NLIタスクにおけるChatGPT/GPT-4の性能評価を行い、タスク関連データサンプルに特化して微調整された他のモデルと比較する。
また,ChatGPT/GPT-4の推論能力について,様々な推論難易度を導入して総合的な調査を行った。
論文 参考訳(メタデータ) (2023-04-18T17:21:48Z) - Natural Language Processing Methods to Identify Oncology Patients at
High Risk for Acute Care with Clinical Notes [9.49721872804122]
本研究は, がん患者の急性期治療(ACU)のリスクを明らかにするために, 自然言語処理がいかに有用かを評価するものである。
構造化健康データ(SHD)を用いたリスク予測は標準となっているが、自由テキスト形式を用いた予測は複雑である。
論文 参考訳(メタデータ) (2022-09-28T06:31:19Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。