論文の概要: PET2Rep: Towards Vision-Language Model-Drived Automated Radiology Report Generation for Positron Emission Tomography
- arxiv url: http://arxiv.org/abs/2508.04062v1
- Date: Wed, 06 Aug 2025 03:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.535525
- Title: PET2Rep: Towards Vision-Language Model-Drived Automated Radiology Report Generation for Positron Emission Tomography
- Title(参考訳): PET2Rep:ポジトロン放射トモグラフィーのためのビジョンランゲージモデル駆動自動放射線診断レポート作成に向けて
- Authors: Yichi Zhang, Wenbo Zhang, Zehui Ling, Gang Feng, Sisi Peng, Deshu Chen, Yuchen Liu, Hongwei Zhang, Shuqi Wang, Lanlan Li, Limei Han, Yuan Cheng, Zixin Hu, Yuan Qi, Le Xue,
- Abstract要約: 放射線学の報告は臨床的意思決定に不可欠であるが、その手作業による作成は労働集約的で時間を要する。
近年の視覚言語モデル(VLM)の進歩は医療応用において大きな可能性を秘めている。
PET画像の放射線診断レポート生成のための一般医用VLMの評価ベンチマークであるPET2Repを紹介する。
- 参考スコア(独自算出の注目度): 24.091435019102587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Positron emission tomography (PET) is a cornerstone of modern oncologic and neurologic imaging, distinguished by its unique ability to illuminate dynamic metabolic processes that transcend the anatomical focus of traditional imaging technologies. Radiology reports are essential for clinical decision making, yet their manual creation is labor-intensive and time-consuming. Recent advancements of vision-language models (VLMs) have shown strong potential in medical applications, presenting a promising avenue for automating report generation. However, existing applications of VLMs in the medical domain have predominantly focused on structural imaging modalities, while the unique characteristics of molecular PET imaging have largely been overlooked. To bridge the gap, we introduce PET2Rep, a large-scale comprehensive benchmark for evaluation of general and medical VLMs for radiology report generation for PET images. PET2Rep stands out as the first dedicated dataset for PET report generation with metabolic information, uniquely capturing whole-body image-report pairs that cover dozens of organs to fill the critical gap in existing benchmarks and mirror real-world clinical comprehensiveness. In addition to widely recognized natural language generation metrics, we introduce a series of clinical efficiency metrics to evaluate the quality of radiotracer uptake pattern description in key organs in generated reports. We conduct a head-to-head comparison of 30 cutting-edge general-purpose and medical-specialized VLMs. The results show that the current state-of-the-art VLMs perform poorly on PET report generation task, falling considerably short of fulfilling practical needs. Moreover, we identify several key insufficiency that need to be addressed to advance the development in medical applications.
- Abstract(参考訳): ポジトロン・エミッション・トモグラフィ(PET)は、従来の画像技術の解剖学的焦点を超越する動的な代謝過程を照明するユニークな能力によって区別される、現代の腫瘍学および神経画像の基盤である。
放射線学の報告は臨床的意思決定に不可欠であるが、その手作業による作成は労働集約的で時間を要する。
近年の視覚言語モデル(VLM)の進歩は医療応用において大きな可能性を秘めており、レポート生成の自動化に期待できる道筋を示している。
しかしながら、医用領域におけるVLMの既存の応用は、主に構造的イメージングのモダリティに焦点を当てているが、分子PETイメージングの特徴はほとんど見過ごされている。
このギャップを埋めるためにPET2RepはPET画像の放射線診断レポート生成のための総合的および医学的VLMの評価のための大規模な総合的ベンチマークである。
PET2Repは、メタボリック情報を備えたPETレポート生成のための、最初の専用のデータセットとして注目されている。
本報告では,広く知られている自然言語生成指標に加えて,主要な臓器における放射線吸収パターン記述の質を評価するための臨床効率指標も紹介する。
当科では,30個の最先端汎用VLMと医療特化VLMの頭部比較を行った。
その結果,現時点のVLMではPETレポート生成作業が不十分であり,実際的なニーズを満たすには程遠い結果が得られた。
さらに,医療応用の進展に対処する必要があるいくつかの重要な障害を同定する。
関連論文リスト
- Personalized MR-Informed Diffusion Models for 3D PET Image Reconstruction [44.89560992517543]
本稿では,PET-MR スキャンのデータセットから対象特異的なPET画像を生成するための簡易な手法を提案する。
私たちが合成した画像は、被験者のMRスキャンからの情報を保持し、高分解能と解剖学的特徴の保持につながる。
18ドルF]FDGデータセットのシミュレーションと実データを用いて,対象特異的な「擬似PET」画像を用いたパーソナライズされた拡散モデルの事前学習により,低カウントデータによる再構成精度が向上することを示す。
論文 参考訳(メタデータ) (2025-06-04T10:24:14Z) - Developing a PET/CT Foundation Model for Cross-Modal Anatomical and Functional Imaging [39.59895695500171]
FratMAE(Cross-Fraternal Twin Masked Autoencoder)は,全身解剖学的および機能的情報を効果的に統合する新しいフレームワークである。
FratMAEは複雑なクロスモーダル関係とグローバルな取り込みパターンをキャプチャし、下流タスクにおいて優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-04T17:49:07Z) - SegAnyPET: Universal Promptable Segmentation from Positron Emission Tomography Images [21.883098685700666]
本研究は,PET画像からの普遍的プロンプト可能なセグメンテーションのためのモダリティ特異的な3次元基礎モデルであるSegAnyPETを開発する。
実験の結果,SegAnyPETは1点または数点のプロンプトポイントのみを用いて対象臓器をセグメント化できることがわかった。
論文 参考訳(メタデータ) (2025-02-20T08:17:13Z) - Autopet III challenge: Incorporating anatomical knowledge into nnUNet for lesion segmentation in PET/CT [4.376648893167674]
AutoPET III ChallengeはPET/CT画像における腫瘍病変の自動切除の進歩に焦点を当てている。
我々は,PETスキャンの最大強度投影に基づいて,与えられたPET/CTのトレーサを識別する分類器を開発した。
我々の最終提出書は、公開可能なFDGおよびPSMAデータセットに対して76.90%と61.33%のクロスバリデーションDiceスコアを達成している。
論文 参考訳(メタデータ) (2024-09-18T17:16:57Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - LLM-driven Multimodal Target Volume Contouring in Radiation Oncology [46.23891509553877]
大規模言語モデル(LLM)は、テキスト情報と画像の統合を容易にする。
LLM駆動型マルチモーダルAI,すなわちLLMSegを提案する。
提案モデルでは,従来のユニモーダルAIモデルと比較して,性能が著しく向上していることが実証された。
論文 参考訳(メタデータ) (2023-11-03T13:38:42Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Score-Based Generative Models for PET Image Reconstruction [38.72868748574543]
本稿では,PETによるスコアベース生成モデルの適応について提案する。
提案するフレームワークは, 2D PET と 3D PET の両方に対して開発された。
また,磁気共鳴画像を用いたガイド再構成の拡張も提供する。
論文 参考訳(メタデータ) (2023-08-27T19:43:43Z) - Contrastive Diffusion Model with Auxiliary Guidance for Coarse-to-Fine
PET Reconstruction [62.29541106695824]
本稿では, 粗い予測モジュール (CPM) と反復的修正モジュール (IRM) から構成される粗大なPET再構成フレームワークを提案する。
計算オーバーヘッドの大部分をCPMに委譲することで,本手法のサンプリング速度を大幅に向上させることができる。
2つの追加戦略、すなわち補助的な誘導戦略と対照的な拡散戦略が提案され、再構築プロセスに統合される。
論文 参考訳(メタデータ) (2023-08-20T04:10:36Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。