Fugu-MT 論文翻訳(概要): Extracting detailed oncologic history and treatment plan from medical oncology notes with large language models

論文の概要: Extracting detailed oncologic history and treatment plan from medical oncology notes with large language models

arxiv url: http://arxiv.org/abs/2308.03853v1
Date: Mon, 7 Aug 2023 18:03:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-09 15:27:00.139704
Title: Extracting detailed oncologic history and treatment plan from medical oncology notes with large language models
Title（参考訳）: 大規模言語モデルを用いた医療オンコロジーノートからの詳細なオンコロジー履歴と治療計画の抽出
Authors: Madhumita Sushil, Vanessa E. Kennedy, Brenda Y. Miao, Divneet Mandair, Travis Zack, Atul J. Butte
Abstract要約: 大規模言語モデル(LLM)は、最近、様々な医学自然言語処理タスクにおいて印象的なパフォーマンスを示した。そこで我々は, 患者の特徴, 腫瘍の特徴, 検査, 治療, 時間性などを含む, テキストオンコロジー情報に注釈を付けるための詳細なスキーマを開発した。 GPT-4モデルは全体の最高性能を示し、BLEU平均スコアは0.69、ROUGE平均スコアは0.72、複雑なタスクの平均精度は67%だった。
参考スコア（独自算出の注目度）: 0.24629531282150877
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Both medical care and observational studies in oncology require a thorough understanding of a patient's disease progression and treatment history, often elaborately documented in clinical notes. Despite their vital role, no current oncology information representation and annotation schema fully encapsulates the diversity of information recorded within these notes. Although large language models (LLMs) have recently exhibited impressive performance on various medical natural language processing tasks, due to the current lack of comprehensively annotated oncology datasets, an extensive evaluation of LLMs in extracting and reasoning with the complex rhetoric in oncology notes remains understudied. We developed a detailed schema for annotating textual oncology information, encompassing patient characteristics, tumor characteristics, tests, treatments, and temporality. Using a corpus of 10 de-identified breast cancer progress notes at University of California, San Francisco, we applied this schema to assess the abilities of three recently-released LLMs (GPT-4, GPT-3.5-turbo, and FLAN-UL2) to perform zero-shot extraction of detailed oncological history from two narrative sections of clinical progress notes. Our team annotated 2750 entities, 2874 modifiers, and 1623 relationships. The GPT-4 model exhibited overall best performance, with an average BLEU score of 0.69, an average ROUGE score of 0.72, and an average accuracy of 67% on complex tasks (expert manual evaluation). Notably, it was proficient in tumor characteristic and medication extraction, and demonstrated superior performance in inferring symptoms due to cancer and considerations of future medications. The analysis demonstrates that GPT-4 is potentially already usable to extract important facts from cancer progress notes needed for clinical research, complex population management, and documenting quality patient care.
Abstract（参考訳）: 腫瘍学における医療と観察の研究は、患者の疾患の進行と治療の歴史を徹底的に理解する必要がある。彼らの重要な役割にもかかわらず、現在のオンコロジー情報表現やアノテーションスキーマはこれらのノートに記録されている情報の多様性を完全にカプセル化していない。大規模言語モデル(LLM)は、近年、様々な医学的自然言語処理タスクにおいて顕著な性能を示したが、現在、包括的な注釈付けオンコロジーデータセットが不足しているため、複雑なオンコロジーノートのレトリックによる抽出と推論におけるLLMの広範な評価がまだ検討されている。症例の特徴,腫瘍の特徴,検査,治療,時間的特徴を包含して,テキストオンコロジー情報を注釈する詳細なスキーマを開発した。カリフォルニア大学サンフランシスコ校の乳がん進展ノート10枚を用いて,最近リリースされた3つのLSM(GPT-4, GPT-3.5-turbo, FLAN-UL2)の能力評価を行い,臨床経過ノートの2項目から詳細な腫瘍学的履歴をゼロショット抽出した。私たちのチームは2750のエンティティ、2874の修飾子、1623の関係を注釈付けしました。 gpt-4は、平均bleuスコア0.069、平均ルージュスコア0.072、複雑なタスクにおける平均精度67%(専門的な手作業による評価)で総合的に最高の性能を示した。特に腫瘍の特徴や薬剤の抽出に優れており,癌による症状の推測や今後の薬剤の考察に優れた性能を示した。この分析は、GPT-4が臨床研究、複雑な人口管理、高品質な患者ケアの文書化に必要ながん進展ノートから重要な事実を抽出するのに既に有用であることを示している。

関連論文リスト

PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。 LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文参考訳（メタデータ） (2026-03-02T00:50:39Z)
Extracting Patient History from Clinical Text: A Comparative Study of Clinical Large Language Models [3.1277841304339065]
本研究は,臨床大言語モデル(cLLMs)の医療史エンティティ(MHEs)認識における性能評価である。 MTSamplesレポジトリから61例の外来臨床ノートに1,449例の診断を行った。 cLLMsはMHEの抽出に要する時間を20%以上短縮する可能性を示した。
論文参考訳（メタデータ） (2025-03-30T02:00:56Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Cancer Type, Stage and Prognosis Assessment from Pathology Reports using LLMs [16.277553795808085]
我々は、GPTファミリ、Mistralモデル、オープンソースのLlamaモデルといった最先端の言語モデルを活用し、病理報告の分析においてその性能を評価する。具体的には, 癌型同定, AJCCステージ決定, 予後評価におけるそれらの性能について検討した。ゼロショット環境での性能指標を詳細に分析した結果,Path-llama3.1-8BとPath-GPT-4o-mini-FTという2つの命令調整モデルを開発した。
論文参考訳（メタデータ） (2025-03-03T05:41:16Z)
CSTRL: Context-Driven Sequential Transfer Learning for Abstractive Radiology Report Summarization [0.37109226820205005]
放射線学報告は、診断の発見と印象を含むいくつかのセクションから構成される。共通の抽象的な要約問題に優れた事前学習モデルは、専門の医療領域に適用した場合に困難に直面する。キーコンテンツ抽出とコヒーレント要約を保証するシーケンシャルトランスファー学習を導入する。
論文参考訳（メタデータ） (2025-02-21T08:32:11Z)
A Comparative Study of Recent Large Language Models on Generating Hospital Discharge Summaries for Lung Cancer Patients [19.777109737517996]
本研究の目的は,大規模言語モデル(LLM)が手動要約の負担を軽減することにある。本研究は, GPT-3.5, GPT-4, GPT-4o, LLaMA 3 8bを含む複数のLCMの放電サマリー生成性能について検討した。
論文参考訳（メタデータ） (2024-11-06T10:02:50Z)
MGH Radiology Llama: A Llama 3 70B Model for Radiology [50.42811030970618]
本稿では,高度な放射線学に焦点を当てた大規模言語モデルMGH Radiology Llamaを提案する。 Llama 3 70Bモデルを使用して開発され、Radiology-GPTやRadiology-Llama2といった従来のドメイン固有モデルをベースにしている。従来の指標とGPT-4に基づく評価の両方を取り入れた評価では,汎用LLMよりも高い性能を示す。
論文参考訳（メタデータ） (2024-08-13T01:30:03Z)
SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文参考訳（メタデータ） (2024-07-03T11:02:12Z)
Improving Entity Recognition Using Ensembles of Deep Learning and Fine-tuned Large Language Models: A Case Study on Adverse Event Extraction from Multiple Sources [13.750202656564907]
副作用イベント(AE)抽出は、免疫の安全プロファイルを監視し解析するために重要である。本研究では,AE抽出における大規模言語モデル(LLM)と従来のディープラーニングモデルの有効性を評価することを目的とする。
論文参考訳（メタデータ） (2024-06-26T03:56:21Z)
Boosting Medical Image-based Cancer Detection via Text-guided Supervision from Reports [68.39938936308023]
本研究では, 高精度ながん検出を実現するための新しいテキスト誘導学習法を提案する。本手法は,大規模プレトレーニングVLMによる臨床知識の活用により,一般化能力の向上が期待できる。
論文参考訳（メタデータ） (2024-05-23T07:03:38Z)
Histopathologic Cancer Detection [0.0]
この作業では、PatchCamelyonベンチマークデータセットを使用して、モデルをマルチレイヤのパーセプトロンと畳み込みモデルでトレーニングし、精度の高いリコール、F1スコア、精度、AUCスコアでモデルのパフォーマンスを観察する。また,データ拡張を伴うResNet50とInceptionNetモデルを導入し,ResNet50が最先端モデルに勝てることを示す。
論文参考訳（メタデータ） (2023-11-13T19:51:46Z)
Zero-shot Learning with Minimum Instruction to Extract Social Determinants and Family History from Clinical Notes using GPT Model [4.72294159722118]
本研究は, ゼロショット学習による情報抽出に焦点をあてる。我々は、人口統計学、様々な社会的決定要因、家族史情報に注釈を付けた非特定実世界の臨床ノートを利用する。以上の結果から, GPT-3.5法は, 集団抽出では平均0.975 F1, 社会要因抽出では0.615 F1, 家族歴抽出では0.722 F1を達成できた。
論文参考訳（メタデータ） (2023-09-11T14:16:27Z)
PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。 LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。 PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文参考訳（メタデータ） (2023-04-27T18:29:05Z)
Foresight -- Deep Generative Modelling of Patient Timelines using Electronic Health Records [46.024501445093755]
医学史の時間的モデリングは、将来の出来事を予測し、シミュレートしたり、リスクを見積り、代替診断を提案したり、合併症を予測するために使用することができる。我々は、文書テキストを構造化されたコード化された概念に変換するためにNER+Lツール(MedCAT)を使用する新しいGPT3ベースのパイプラインであるForesightを提示する。
論文参考訳（メタデータ） (2022-12-13T19:06:00Z)
Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文参考訳（メタデータ） (2022-04-22T17:27:00Z)
Human Evaluation and Correlation with Automatic Metrics in Consultation Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。 5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文参考訳（メタデータ） (2022-04-01T14:04:16Z)
A Systematic Review of Natural Language Processing Applied to Radiology Reports [3.600747505433814]
本研究は, 放射線学報告に応用されたNLPの最近の文献を体系的に評価する。本研究は, 放射線学的特徴, nlp法, 性能, 研究, 臨床応用特性を含む21の変数に基づく。
論文参考訳（メタデータ） (2021-02-18T18:54:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。