論文の概要: Large Language Model-Augmented Auto-Delineation of Treatment Target Volume in Radiation Therapy
- arxiv url: http://arxiv.org/abs/2407.07296v1
- Date: Wed, 10 Jul 2024 01:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 18:11:16.267587
- Title: Large Language Model-Augmented Auto-Delineation of Treatment Target Volume in Radiation Therapy
- Title(参考訳): 大規模言語モデルによる放射線治療における治療目標量の自動記述
- Authors: Praveenbalaji Rajendran, Yong Yang, Thomas R. Niedermayr, Michael Gensheimer, Beth Beadle, Quynh-Thu Le, Lei Xing, Xianjin Dai,
- Abstract要約: 視覚言語モデルに基づくRTターゲットボリューム自動デラインネットワークであるRadformerを提案する。
Radformerは、他の最先端モデルに比べてセグメンテーション性能が優れている。
- 参考スコア(独自算出の注目度): 5.176861973476354
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Radiation therapy (RT) is one of the most effective treatments for cancer, and its success relies on the accurate delineation of targets. However, target delineation is a comprehensive medical decision that currently relies purely on manual processes by human experts. Manual delineation is time-consuming, laborious, and subject to interobserver variations. Although the advancements in artificial intelligence (AI) techniques have significantly enhanced the auto-contouring of normal tissues, accurate delineation of RT target volumes remains a challenge. In this study, we propose a visual language model-based RT target volume auto-delineation network termed Radformer. The Radformer utilizes a hierarichal vision transformer as the backbone and incorporates large language models to extract text-rich features from clinical data. We introduce a visual language attention module (VLAM) for integrating visual and linguistic features for language-aware visual encoding (LAVE). The Radformer has been evaluated on a dataset comprising 2985 patients with head-and-neck cancer who underwent RT. Metrics, including the Dice similarity coefficient (DSC), intersection over union (IOU), and 95th percentile Hausdorff distance (HD95), were used to evaluate the performance of the model quantitatively. Our results demonstrate that the Radformer has superior segmentation performance compared to other state-of-the-art models, validating its potential for adoption in RT practice.
- Abstract(参考訳): 放射線療法(RT)はがんに対する最も効果的な治療法の1つであり、その成功は標的の正確な線引きに依存している。
しかし、現在ヒトの専門家による手動のプロセスに頼っている総合的な医学的判断である。
手動のデライン化は時間がかかり、手間がかかり、サーバ間のバリエーションが伴う。
人工知能(AI)技術の進歩は、正常な組織のオートコントレーションを著しく向上させたが、RTターゲットボリュームの正確なデライン化は依然として課題である。
そこで本研究では,Radformerと呼ばれる,視覚言語モデルに基づくRTターゲットボリューム自動記述ネットワークを提案する。
Radformerはヒエラリカル・ビジョン・トランスフォーマーをバックボーンとして使用し、臨床データからテキストリッチな特徴を抽出するために大きな言語モデルを組み込んでいる。
本稿では,視覚的特徴と言語的特徴を統合する視覚言語アテンションモジュール (VLAM) を提案する。
Radformerは、RTを施行した頭頸部癌患者2985名からなるデータセットで評価されている。
Dice similarity coefficient (DSC), intersection over union (IOU), and 95th percentile Hausdorff distance (HD95) などの指標を用いて,モデルの性能を定量的に評価した。
この結果、Radformerは他の最先端モデルと比較してセグメンテーション性能が優れており、RTの実践においてその可能性を検証している。
関連論文リスト
- An X-Ray Is Worth 15 Features: Sparse Autoencoders for Interpretable Radiology Report Generation [6.473805247939424]
既存のビジョンランゲージモデル(VLM)は幻覚に悩まされ、解釈性に欠け、高価な微調整を必要とする。
我々は,SAE-Radを導入し,スパースオートエンコーダ(SAE)を用いて,事前学習された視覚変換器から人間の解釈可能な特徴へ潜在表現を分解する。
論文 参考訳(メタデータ) (2024-10-04T11:40:21Z) - Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports [2.932283627137903]
この研究は、2つのデータセットを利用していた:7,294の放射線診断報告は、BT-RADS(Brain tumor Reporting and Data System)スコアに注釈付けされ、2,154の病理診断報告は、isocitrate dehydrogenase(IDH)変異のステータスに注釈付けされた。
論文 参考訳(メタデータ) (2024-09-15T15:21:45Z) - Handling Geometric Domain Shifts in Semantic Segmentation of Surgical RGB and Hyperspectral Images [67.66644395272075]
本稿では,幾何学的アウト・オブ・ディストリビューションデータに直面する場合の,最先端のセマンティックセマンティックセマンティクスモデルの最初の解析を行う。
本稿では, 汎用性を高めるために, 有機移植(Organ Transplantation)と呼ばれる拡張技術を提案する。
我々の拡張技術は、RGBデータに対して最大67%、HSIデータに対して90%のSOAモデル性能を改善し、実際のOODテストデータに対して、分配内パフォーマンスのレベルでのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T19:13:15Z) - CXR-Agent: Vision-language models for chest X-ray interpretation with uncertainty aware radiology reporting [0.0]
胸部X線解釈のための基礎的視覚言語モデルとして, 一般に公開されている技術の現状を評価した。
視覚言語モデルは、しばしば自信のある言語と幻覚し、臨床解釈を遅くする。
我々は,CheXagentの線形プローブとBioViL-Tのフレーズグラウンドティングツールを用いて,エージェントベースの視覚言語によるレポート生成手法を開発した。
論文 参考訳(メタデータ) (2024-07-11T18:39:19Z) - Large-Language-Model Empowered Dose Volume Histogram Prediction for
Intensity Modulated Radiotherapy [11.055104826451126]
本研究では,非構造化画像から画像パッチノードと線量ノードからなる構造化グラフに変換するパイプラインを提案する。
構造グラフからDVH(Dose-Volume histograms)を予測するために,新しいDose Graph Neural Network(DoseGNN)モデルを開発した。
本研究では,IMRT(強度変調放射線療法)計画の自動化を目的とした概念の実践的実装として,オンライン人間とAIのコラボレーションシステムを導入した。
論文 参考訳(メタデータ) (2024-02-11T11:24:09Z) - Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。
胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文 参考訳(メタデータ) (2023-11-18T14:37:53Z) - LLM-driven Multimodal Target Volume Contouring in Radiation Oncology [46.23891509553877]
大規模言語モデル(LLM)は、テキスト情報と画像の統合を容易にする。
LLM駆動型マルチモーダルAI,すなわちLLMSegを提案する。
提案モデルでは,従来のユニモーダルAIモデルと比較して,性能が著しく向上していることが実証された。
論文 参考訳(メタデータ) (2023-11-03T13:38:42Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Radiology-Llama2: Best-in-Class Large Language Model for Radiology [71.27700230067168]
本稿では,ラジオロジーに特化した大規模言語モデルであるRadiology-Llama2を紹介する。
MIMIC-CXRとOpenIデータセットのROUGEメトリクスを用いた定量的評価は、Radiology-Llama2が最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-08-29T17:44:28Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。