論文の概要: Exploring zero-shot capability of large language models in inferences
from medical oncology notes
- arxiv url: http://arxiv.org/abs/2308.03853v2
- Date: Wed, 11 Oct 2023 22:41:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 15:02:38.793568
- Title: Exploring zero-shot capability of large language models in inferences
from medical oncology notes
- Title(参考訳): 医学オンコロジーノートからの推測による大規模言語モデルのゼロショット能力の探索
- Authors: Madhumita Sushil, Vanessa E. Kennedy, Divneet Mandair, Brenda Y. Miao,
Travis Zack, Atul J. Butte
- Abstract要約: 大規模言語モデル(LLM)は、最近、様々な医学自然言語処理タスクにおいて印象的なパフォーマンスを示した。
そこで我々は, 患者の特徴, 腫瘍の特徴, 検査, 治療, 時間性などを含む, テキストオンコロジー情報に注釈を付けるための詳細なスキーマを開発した。
GPT-4モデルでは、BLEU平均スコアが0.68、ROUGE平均スコアが0.71、複雑なタスクの平均精度が67%であった。
- 参考スコア(独自算出の注目度): 2.1067045507411195
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Both medical care and observational studies in oncology require a thorough
understanding of a patient's disease progression and treatment history, often
elaborately documented in clinical notes. Despite their vital role, no current
oncology information representation and annotation schema fully encapsulates
the diversity of information recorded within these notes. Although large
language models (LLMs) have recently exhibited impressive performance on
various medical natural language processing tasks, due to the current lack of
comprehensively annotated oncology datasets, an extensive evaluation of LLMs in
extracting and reasoning with the complex rhetoric in oncology notes remains
understudied. We developed a detailed schema for annotating textual oncology
information, encompassing patient characteristics, tumor characteristics,
tests, treatments, and temporality. Using a corpus of 40 de-identified breast
and pancreatic cancer progress notes at University of California, San
Francisco, we applied this schema to assess the abilities of three
recently-released LLMs (GPT-4, GPT-3.5-turbo, and FLAN-UL2) to perform
zero-shot extraction of detailed oncological history from two narrative
sections of clinical progress notes. Our team annotated 9028 entities, 9986
modifiers, and 5312 relationships. The GPT-4 model exhibited overall best
performance, with an average BLEU score of 0.68, an average ROUGE score of
0.71, and an average accuracy of 67% on complex tasks (expert manual evaluation
on subset). Notably, it was proficient in tumor characteristic and medication
extraction, and demonstrated superior performance in advanced tasks of
inferring symptoms due to cancer and considerations of future medications.
GPT-4 may already be usable to extract important facts from cancer progress
notes needed for clinical research, complex population management, and
documenting quality patient care.
- Abstract(参考訳): 腫瘍学における医療と観察の研究は、患者の疾患の進行と治療の歴史を徹底的に理解する必要がある。
彼らの重要な役割にもかかわらず、現在のオンコロジー情報表現やアノテーションスキーマはこれらのノートに記録されている情報の多様性を完全にカプセル化していない。
大規模言語モデル(LLM)は、近年、様々な医学的自然言語処理タスクにおいて顕著な性能を示したが、現在、包括的な注釈付けオンコロジーデータセットが不足しているため、複雑なオンコロジーノートのレトリックによる抽出と推論におけるLLMの広範な評価がまだ検討されている。
症例の特徴,腫瘍の特徴,検査,治療,時間的特徴を包含して,テキストオンコロジー情報を注釈する詳細なスキーマを開発した。
カリフォルニア大学サンフランシスコ校の40個の乳腺・膵癌進展ノートのコーパスを用いて,最近リリースされた3つのLCM(GPT-4, GPT-3.5-turbo, FLAN-UL2)の能力を評価し,臨床経過ノートの2項目から詳細な腫瘍学的履歴をゼロショット抽出した。
チームは9028のエンティティ、9986の修飾子、5312の関連に注釈を付けました。
gpt-4 モデルでは、平均 bleu スコア 0.68、平均 rouge スコア 0.71、複雑なタスクにおける平均精度 67% という全体的な性能が示されていた。
特に腫瘍の特徴や薬剤抽出に優れており、がんによる症状を推察する高度なタスクや今後の医薬品の考慮において優れた性能を示した。
GPT-4は、臨床研究、複雑な人口管理、質の高い患者ケアの文書化に必要ながん進展ノートから重要な事実を抽出するために既に使用することができる。
関連論文リスト
- Impact of Large Language Model Assistance on Patients Reading Clinical
Notes: A Mixed-Methods Study [47.61555826813361]
複雑な医療概念と臨床ノートの中の用語は、患者の理解を妨げ、不安を引き起こす可能性がある。
そこで我々は,ノートにコンテキストを付加し,情報を簡素化し,抽出する患者対応ツールを開発した。
臨床医による誤診で誤診がみられ, 誤診がみられた。
論文 参考訳(メタデータ) (2024-01-17T23:14:52Z) - Histopathologic Cancer Detection [0.0]
この作業では、PatchCamelyonベンチマークデータセットを使用して、モデルをマルチレイヤのパーセプトロンと畳み込みモデルでトレーニングし、精度の高いリコール、F1スコア、精度、AUCスコアでモデルのパフォーマンスを観察する。
また,データ拡張を伴うResNet50とInceptionNetモデルを導入し,ResNet50が最先端モデルに勝てることを示す。
論文 参考訳(メタデータ) (2023-11-13T19:51:46Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Zero-shot Learning with Minimum Instruction to Extract Social
Determinants and Family History from Clinical Notes using GPT Model [4.72294159722118]
本研究は, ゼロショット学習による情報抽出に焦点をあてる。
我々は、人口統計学、様々な社会的決定要因、家族史情報に注釈を付けた非特定実世界の臨床ノートを利用する。
以上の結果から, GPT-3.5法は, 集団抽出では平均0.975 F1, 社会要因抽出では0.615 F1, 家族歴抽出では0.722 F1を達成できた。
論文 参考訳(メタデータ) (2023-09-11T14:16:27Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Artificial Intelligence in Ovarian Cancer Histopathology: A Systematic
Review [1.832300121391956]
方法: PubMed, Scopus, Web of Science, CENTRAL, WHO-ICTRPの検索を行った。
PROBASTを用いてバイアスのリスクを評価した。
37の診断モデル、22の予後モデル、21の診断関連結果を含む80の関心モデルがあった。
すべてのモデルが全体として偏見のリスクが高いか、あるいは不明確であることが判明し、ほとんどの研究は分析において偏見のリスクが高いことが判明した。
論文 参考訳(メタデータ) (2023-03-31T12:26:29Z) - Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。
グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。
当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文 参考訳(メタデータ) (2022-04-22T17:27:00Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z) - A Systematic Review of Natural Language Processing Applied to Radiology
Reports [3.600747505433814]
本研究は, 放射線学報告に応用されたNLPの最近の文献を体系的に評価する。
本研究は, 放射線学的特徴, nlp法, 性能, 研究, 臨床応用特性を含む21の変数に基づく。
論文 参考訳(メタデータ) (2021-02-18T18:54:41Z) - A Corpus for Detecting High-Context Medical Conditions in Intensive Care
Patient Notes Focusing on Frequently Readmitted Patients [28.668217175230822]
このデータセットには1102個の放電サマリーと1000個の看護進歩ノートが含まれている。
注釈付き表現型には、非アジェレンス治療、慢性痛、進行/転移性癌、および他の10種類の表現型が含まれる。
このデータセットは、医学、コンピュータ科学、特に医学自然言語処理の分野における学術、産業研究に利用することができる。
論文 参考訳(メタデータ) (2020-03-06T05:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。