論文の概要: Exploring zero-shot capability of large language models in inferences
from medical oncology notes
- arxiv url: http://arxiv.org/abs/2308.03853v2
- Date: Wed, 11 Oct 2023 22:41:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 15:02:38.793568
- Title: Exploring zero-shot capability of large language models in inferences
from medical oncology notes
- Title(参考訳): 医学オンコロジーノートからの推測による大規模言語モデルのゼロショット能力の探索
- Authors: Madhumita Sushil, Vanessa E. Kennedy, Divneet Mandair, Brenda Y. Miao,
Travis Zack, Atul J. Butte
- Abstract要約: 大規模言語モデル(LLM)は、最近、様々な医学自然言語処理タスクにおいて印象的なパフォーマンスを示した。
そこで我々は, 患者の特徴, 腫瘍の特徴, 検査, 治療, 時間性などを含む, テキストオンコロジー情報に注釈を付けるための詳細なスキーマを開発した。
GPT-4モデルでは、BLEU平均スコアが0.68、ROUGE平均スコアが0.71、複雑なタスクの平均精度が67%であった。
- 参考スコア(独自算出の注目度): 2.1067045507411195
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Both medical care and observational studies in oncology require a thorough
understanding of a patient's disease progression and treatment history, often
elaborately documented in clinical notes. Despite their vital role, no current
oncology information representation and annotation schema fully encapsulates
the diversity of information recorded within these notes. Although large
language models (LLMs) have recently exhibited impressive performance on
various medical natural language processing tasks, due to the current lack of
comprehensively annotated oncology datasets, an extensive evaluation of LLMs in
extracting and reasoning with the complex rhetoric in oncology notes remains
understudied. We developed a detailed schema for annotating textual oncology
information, encompassing patient characteristics, tumor characteristics,
tests, treatments, and temporality. Using a corpus of 40 de-identified breast
and pancreatic cancer progress notes at University of California, San
Francisco, we applied this schema to assess the abilities of three
recently-released LLMs (GPT-4, GPT-3.5-turbo, and FLAN-UL2) to perform
zero-shot extraction of detailed oncological history from two narrative
sections of clinical progress notes. Our team annotated 9028 entities, 9986
modifiers, and 5312 relationships. The GPT-4 model exhibited overall best
performance, with an average BLEU score of 0.68, an average ROUGE score of
0.71, and an average accuracy of 67% on complex tasks (expert manual evaluation
on subset). Notably, it was proficient in tumor characteristic and medication
extraction, and demonstrated superior performance in advanced tasks of
inferring symptoms due to cancer and considerations of future medications.
GPT-4 may already be usable to extract important facts from cancer progress
notes needed for clinical research, complex population management, and
documenting quality patient care.
- Abstract(参考訳): 腫瘍学における医療と観察の研究は、患者の疾患の進行と治療の歴史を徹底的に理解する必要がある。
彼らの重要な役割にもかかわらず、現在のオンコロジー情報表現やアノテーションスキーマはこれらのノートに記録されている情報の多様性を完全にカプセル化していない。
大規模言語モデル(LLM)は、近年、様々な医学的自然言語処理タスクにおいて顕著な性能を示したが、現在、包括的な注釈付けオンコロジーデータセットが不足しているため、複雑なオンコロジーノートのレトリックによる抽出と推論におけるLLMの広範な評価がまだ検討されている。
症例の特徴,腫瘍の特徴,検査,治療,時間的特徴を包含して,テキストオンコロジー情報を注釈する詳細なスキーマを開発した。
カリフォルニア大学サンフランシスコ校の40個の乳腺・膵癌進展ノートのコーパスを用いて,最近リリースされた3つのLCM(GPT-4, GPT-3.5-turbo, FLAN-UL2)の能力を評価し,臨床経過ノートの2項目から詳細な腫瘍学的履歴をゼロショット抽出した。
チームは9028のエンティティ、9986の修飾子、5312の関連に注釈を付けました。
gpt-4 モデルでは、平均 bleu スコア 0.68、平均 rouge スコア 0.71、複雑なタスクにおける平均精度 67% という全体的な性能が示されていた。
特に腫瘍の特徴や薬剤抽出に優れており、がんによる症状を推察する高度なタスクや今後の医薬品の考慮において優れた性能を示した。
GPT-4は、臨床研究、複雑な人口管理、質の高い患者ケアの文書化に必要ながん進展ノートから重要な事実を抽出するために既に使用することができる。
関連論文リスト
- A Comparative Study of Recent Large Language Models on Generating Hospital Discharge Summaries for Lung Cancer Patients [19.777109737517996]
本研究の目的は,大規模言語モデル(LLM)が手動要約の負担を軽減することにある。
本研究は, GPT-3.5, GPT-4, GPT-4o, LLaMA 3 8bを含む複数のLCMの放電サマリー生成性能について検討した。
論文 参考訳(メタデータ) (2024-11-06T10:02:50Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Improving Entity Recognition Using Ensembles of Deep Learning and Fine-tuned Large Language Models: A Case Study on Adverse Event Extraction from Multiple Sources [13.750202656564907]
副作用イベント(AE)抽出は、免疫の安全プロファイルを監視し解析するために重要である。
本研究では,AE抽出における大規模言語モデル(LLM)と従来のディープラーニングモデルの有効性を評価することを目的とする。
論文 参考訳(メタデータ) (2024-06-26T03:56:21Z) - Boosting Medical Image-based Cancer Detection via Text-guided Supervision from Reports [68.39938936308023]
本研究では, 高精度ながん検出を実現するための新しいテキスト誘導学習法を提案する。
本手法は,大規模プレトレーニングVLMによる臨床知識の活用により,一般化能力の向上が期待できる。
論文 参考訳(メタデータ) (2024-05-23T07:03:38Z) - Histopathologic Cancer Detection [0.0]
この作業では、PatchCamelyonベンチマークデータセットを使用して、モデルをマルチレイヤのパーセプトロンと畳み込みモデルでトレーニングし、精度の高いリコール、F1スコア、精度、AUCスコアでモデルのパフォーマンスを観察する。
また,データ拡張を伴うResNet50とInceptionNetモデルを導入し,ResNet50が最先端モデルに勝てることを示す。
論文 参考訳(メタデータ) (2023-11-13T19:51:46Z) - Zero-shot Learning with Minimum Instruction to Extract Social
Determinants and Family History from Clinical Notes using GPT Model [4.72294159722118]
本研究は, ゼロショット学習による情報抽出に焦点をあてる。
我々は、人口統計学、様々な社会的決定要因、家族史情報に注釈を付けた非特定実世界の臨床ノートを利用する。
以上の結果から, GPT-3.5法は, 集団抽出では平均0.975 F1, 社会要因抽出では0.615 F1, 家族歴抽出では0.722 F1を達成できた。
論文 参考訳(メタデータ) (2023-09-11T14:16:27Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Foresight -- Deep Generative Modelling of Patient Timelines using
Electronic Health Records [46.024501445093755]
医学史の時間的モデリングは、将来の出来事を予測し、シミュレートしたり、リスクを見積り、代替診断を提案したり、合併症を予測するために使用することができる。
我々は、文書テキストを構造化されたコード化された概念に変換するためにNER+Lツール(MedCAT)を使用する新しいGPT3ベースのパイプラインであるForesightを提示する。
論文 参考訳(メタデータ) (2022-12-13T19:06:00Z) - Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。
グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。
当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文 参考訳(メタデータ) (2022-04-22T17:27:00Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z) - A Systematic Review of Natural Language Processing Applied to Radiology
Reports [3.600747505433814]
本研究は, 放射線学報告に応用されたNLPの最近の文献を体系的に評価する。
本研究は, 放射線学的特徴, nlp法, 性能, 研究, 臨床応用特性を含む21の変数に基づく。
論文 参考訳(メタデータ) (2021-02-18T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。