論文の概要: Automatic Personalized Impression Generation for PET Reports Using Large
Language Models
- arxiv url: http://arxiv.org/abs/2309.10066v1
- Date: Mon, 18 Sep 2023 18:33:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 18:09:48.911586
- Title: Automatic Personalized Impression Generation for PET Reports Using Large
Language Models
- Title(参考訳): 大規模言語モデルを用いたPETレポートの自動印象生成
- Authors: Xin Tie, Muheon Shin, Ali Pirasteh, Nevein Ibrahim, Zachary Huemann,
Sharon M. Castellino, Kara M. Kelly, John Garrett, Junjie Hu, Steve Y. Cho,
Tyler J. Bradshaw
- Abstract要約: 細調整された大言語モデル(LLM)が、全身PETレポートに対して正確でパーソナライズされた印象を生成できるかどうかを判断する。
教師強制アルゴリズムを用いて,12の言語モデルをPETレポートのコーパスで訓練した。
医師は PEG 生成の印象を自身のスタイルでレビューすると, 89% が臨床的に許容されると考えられた。
- 参考スコア(独自算出の注目度): 3.588947742037283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Purpose: To determine if fine-tuned large language models (LLMs) can generate
accurate, personalized impressions for whole-body PET reports. Materials and
Methods: Twelve language models were trained on a corpus of PET reports using
the teacher-forcing algorithm, with the report findings as input and the
clinical impressions as reference. An extra input token encodes the reading
physician's identity, allowing models to learn physician-specific reporting
styles. Our corpus comprised 37,370 retrospective PET reports collected from
our institution between 2010 and 2022. To identify the best LLM, 30 evaluation
metrics were benchmarked against quality scores from two nuclear medicine (NM)
physicians, with the most aligned metrics selecting the model for expert
evaluation. In a subset of data, model-generated impressions and original
clinical impressions were assessed by three NM physicians according to 6
quality dimensions and an overall utility score (5-point scale). Each physician
reviewed 12 of their own reports and 12 reports from other physicians.
Bootstrap resampling was used for statistical analysis. Results: Of all
evaluation metrics, domain-adapted BARTScore and PEGASUSScore showed the
highest Spearman's rho correlations (0.568 and 0.563) with physician
preferences. Based on these metrics, the fine-tuned PEGASUS model was selected
as the top LLM. When physicians reviewed PEGASUS-generated impressions in their
own style, 89% were considered clinically acceptable, with a mean utility score
of 4.08/5. Physicians rated these personalized impressions as comparable in
overall utility to the impressions dictated by other physicians (4.03, P=0.41).
Conclusion: Personalized impressions generated by PEGASUS were clinically
useful, highlighting its potential to expedite PET reporting.
- Abstract(参考訳): 目的: 大規模言語モデル(LLM)が全体PETレポートに対して正確でパーソナライズされた印象を生成できるかどうかを判断する。
対象と方法: 教師強制アルゴリズムを用いてPETレポートのコーパスを用いて12言語モデルを訓練し, 報告結果を入力とし, 臨床印象を基準とした。
追加の入力トークンは、医師のidをエンコードし、モデルが医師固有のレポートスタイルを学習できるようにする。
当院では2010年から2022年の間に37,370件のPETレポートを収集した。
最良のllmを特定するために、30の評価指標が2人の核医学(nm)医師の品質スコアに対してベンチマークされ、最も整合した指標が専門家評価のモデルを選択した。
データの一部では,NM医師3名によるモデル生成印象と原臨床印象を6つの品質次元と総合効用スコア(5点尺度)に基づいて評価した。
各医師は自身の報告書12点と他の医師12点をレビューした。
統計解析にはブートストラップ再サンプリングが用いられた。
結果: 評価指標では, ドメイン適応型BARTScoreとPEGASUSScoreが最も高い相関(0.568, 0.563)を示した。
これらの指標に基づき、細調整されたPEGASUSモデルをトップLLMとして選択した。
医師がPEGASUSの印象を自身のスタイルでレビューすると,89%が臨床的に許容され,平均効用率は4.08/5であった。
医師はこれらのパーソナライズされた印象を、他の医師によって規定された印象(4.03, P=0.41)に匹敵するものとみなした。
結論: PEGASUSによるパーソナライズドインプレッションは臨床的に有用であり,PET報告の迅速化の可能性を強調した。
関連論文リスト
- Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation [42.06416052431378]
2Dラジオグラフィーキャプションは、ボリューム3D解剖学における現実の診断課題を反映するものではない。
我々は18,885組の3D-BrainCTデータセットを収集し,臨床ビジュアルインストラクション・チューニングを用いて,脳波モデルを用いて放射線治療を施した3D脳CTレポートを作成した。
私たちの研究は、3Dの脳CTデータセットのキュレーション、微調整による解剖学的意味のある言語モデル、堅牢な放射線学評価指標の提案など、総合的な枠組みを具現化したものです。
論文 参考訳(メタデータ) (2024-07-02T12:58:35Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - The current status of large language models in summarizing radiology report impressions [13.402769727597812]
大きな言語モデル(LLMs)が放射線学レポートの印象を要約する効果は、まだ不明である。
北京大学医学部附属病院からCT,PET-CT,超音波の3種類の放射線学報告を収集した。
本報告では,ゼロショット,ワンショット,3ショットのプロンプトを完全な実例で構築し,インプレッションを生成する。
論文 参考訳(メタデータ) (2024-06-04T09:23:30Z) - Leveraging Professional Radiologists' Expertise to Enhance LLMs'
Evaluation for Radiology Reports [22.599250713630333]
提案手法は,Large Language Models (LLMs) を用いた専門的放射線技師の専門知識を相乗化する。
我々のアプローチは、LLM評価を放射線学の基準と整合させ、人間とAIが生成したレポートの詳細な比較を可能にする。
実験の結果, 詳細な GPT-4 (5-shot) モデルでは0.48 のスコアが得られ, METEOR のスコアは0.19 を上回った。
論文 参考訳(メタデータ) (2024-01-29T21:24:43Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Learning structures of the French clinical language:development and
validation of word embedding models using 21 million clinical reports from
electronic health records [2.5709272341038027]
事前訓練された言語モデルを用いた伝達学習に基づく手法は、ほとんどのNLPアプリケーションで最先端の結果を得た。
本研究の目的は,下流医療NLP課題に対する言語モデルの適用が臨床報告に及ぼす影響を評価することである。
論文 参考訳(メタデータ) (2022-07-26T14:46:34Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。