論文の概要: Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation
- arxiv url: http://arxiv.org/abs/2407.02235v1
- Date: Tue, 2 Jul 2024 12:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 15:25:45.153434
- Title: Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation
- Title(参考訳): 三次元脳CTレポート生成における多モーダル大言語モデルのための全体的枠組みの実現に向けて
- Authors: Cheng-Yi Li, Kao-Jung Chang, Cheng-Fu Yang, Hsin-Yu Wu, Wenting Chen, Hritik Bansal, Ling Chen, Yi-Ping Yang, Yu-Chun Chen, Shih-Pin Chen, Jiing-Feng Lirng, Kai-Wei Chang, Shih-Hwa Chiou,
- Abstract要約: 2Dラジオグラフィーキャプションは、ボリューム3D解剖学における現実の診断課題を反映するものではない。
我々は18,885組の3D-BrainCTデータセットを収集し,臨床ビジュアルインストラクション・チューニングを用いて,脳波モデルを用いて放射線治療を施した3D脳CTレポートを作成した。
私たちの研究は、3Dの脳CTデータセットのキュレーション、微調整による解剖学的意味のある言語モデル、堅牢な放射線学評価指標の提案など、総合的な枠組みを具現化したものです。
- 参考スコア(独自算出の注目度): 42.06416052431378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal large language models (MLLMs) have been given free rein to explore exciting medical applications with a primary focus on radiology report generation. Nevertheless, the preliminary success in 2D radiology captioning is incompetent to reflect the real-world diagnostic challenge in the volumetric 3D anatomy. To mitigate three crucial limitation aspects in the existing literature, including (1) data complexity, (2) model capacity, and (3) evaluation metric fidelity, we collected an 18,885 text-scan pairs 3D-BrainCT dataset and applied clinical visual instruction tuning (CVIT) to train BrainGPT models to generate radiology-adherent 3D brain CT reports. Statistically, our BrainGPT scored BLEU-1 = 44.35, BLEU-4 = 20.38, METEOR = 30.13, ROUGE-L = 47.6, and CIDEr-R = 211.77 during internal testing and demonstrated an accuracy of 0.91 in captioning midline shifts on the external validation CQ500 dataset. By further inspecting the captioned report, we reported that the traditional metrics appeared to measure only the surface text similarity and failed to gauge the information density of the diagnostic purpose. To close this gap, we proposed a novel Feature-Oriented Radiology Task Evaluation (FORTE) to estimate the report's clinical relevance (lesion feature and landmarks). Notably, the BrainGPT model scored an average FORTE F1-score of 0.71 (degree=0.661; landmark=0.706; feature=0.693; impression=0.779). To demonstrate that BrainGPT models possess objective readiness to generate human-like radiology reports, we conducted a Turing test that enrolled 11 physician evaluators, and around 74% of the BrainGPT-generated captions were indistinguishable from those written by humans. Our work embodies a holistic framework that showcased the first-hand experience of curating a 3D brain CT dataset, fine-tuning anatomy-sensible language models, and proposing robust radiology evaluation metrics.
- Abstract(参考訳): マルチモーダルな大言語モデル (MLLM) は、放射線医学レポート生成に重点を置いたエキサイティングな医療応用を探求するために無料で提供されてきた。
しかし,2Dラジオグラフィーキャプションの予備的成功は,ボリューム3D解剖学における現実の診断課題を反映するものではない。
既存の文献において,(1)データ複雑性,(2)モデル容量,(3)評価指標の忠実度などの3つの重要な限界点を緩和するために,18,885組のテキストスキャンペア3D-BrainCTデータセットと臨床視覚指導訓練(CVIT)を用いて,脳波モデルを用いて放射線学に順応した3D脳CTレポートを生成する。
統計的には、BrainGPTはBLEU-1 = 44.35, BLEU-4 = 20.38, METEOR = 30.13, ROUGE-L = 47.6, CIDEr-R = 211.77を内部試験で測定し、外部検証CQ500データセットのキャプション中線シフトで0.91の精度を示した。
本報告では, 従来の指標は, 表層テキストの類似性のみを測定し, 診断目的の情報密度を測ることに失敗したと報告した。
このギャップを埋めるため,我々は,論文の臨床的意義(エピソードの特徴とランドマーク)を推定する新しい特徴指向放射線学タスク評価(FORTE)を提案した。
特に、BrainGPTのF1スコアの平均は0.71点(度=0.661点、ランドマーク=0.706点、特徴=0.693点、印象=0.779点)であった。
BrainGPT モデルが人型放射線学レポートを生成するための客観的準備性を持っていることを示すため,11 名の医師評価者を登録したチューリング試験を行い,約74% の脳GPT 生成キャプションがヒトと区別不能であった。
私たちの研究は、3Dの脳CTデータセットのキュレーション、微調整による解剖学的意味のある言語モデル、堅牢な放射線学評価指標の提案など、総合的な枠組みを具現化したものです。
関連論文リスト
- RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - An Optimization Framework for Processing and Transfer Learning for the
Brain Tumor Segmentation [2.0886519175557368]
我々は脳腫瘍セグメント化のための3次元U-Netモデルに基づく最適化フレームワークを構築した。
このフレームワークには、さまざまな前処理や後処理技術、トランスファーラーニングなど、さまざまなテクニックが組み込まれている。
検証データセット上で、この多モード脳腫瘍セグメンテーションフレームワークは、それぞれチャレンジ1、2、3におけるDiceスコア平均0.79、0.72、0.74を達成する。
論文 参考訳(メタデータ) (2024-02-10T18:03:15Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Automated Ensemble-Based Segmentation of Adult Brain Tumors: A Novel
Approach Using the BraTS AFRICA Challenge Data [0.0]
3つのコアアーキテクチャに基づく11種類のユニークなバリエーションからなるアンサンブル手法を提案する。
その結果,異なるアーキテクチャを組み合わせるアンサンブルアプローチが単一モデルより優れていることがわかった。
これらの結果は、脳腫瘍を正確に分類する上での、調整された深層学習技術の可能性を裏付けるものである。
論文 参考訳(メタデータ) (2023-08-14T15:34:22Z) - Towards Generalist Foundation Model for Radiology by Leveraging
Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。
われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。
本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T17:00:38Z) - ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of
Pneumothorax [5.168314889999992]
胸部X線写真における気胸セグメンテーションのための新しい視覚言語モデルConTEXTual Netを提案する。
気胸3,196例のCANDID-PTXデータセットを用いて訓練を行った。
Diceのスコアは0.716$pm$0.016で、これは読者間のばらつきの程度に似ていた。
視覚のみのモデルと競合する視覚言語モデルの両方を上回った。
論文 参考訳(メタデータ) (2023-03-02T22:36:19Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Event-based clinical findings extraction from radiology reports with
pre-trained language model [0.22940141855172028]
今回,臨床所見を付加した新しい放射線診断報告のコーパスを報告する。
金の標準コーパスには合計500点の注記CTレポートが含まれていた。
BERTを含む2つの最先端ディープラーニングアーキテクチャを用いて、トリガと引数のエンティティを抽出した。
論文 参考訳(メタデータ) (2021-12-27T05:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。