論文の概要: PETAR: Localized Findings Generation with Mask-Aware Vision-Language Modeling for PET Automated Reporting
- arxiv url: http://arxiv.org/abs/2510.27680v1
- Date: Fri, 31 Oct 2025 17:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.195721
- Title: PETAR: Localized Findings Generation with Mask-Aware Vision-Language Modeling for PET Automated Reporting
- Title(参考訳): PETAR: PET自動レポートのためのマスク対応視覚言語モデルによる局所的な検索生成
- Authors: Danyal Maqbool, Changhee Lee, Zachary Huemann, Samuel D. Church, Matthew E. Larson, Scott B. Perlman, Tomas A. Romero, Joshua D. Warner, Meghan Lubner, Xin Tie, Jameson Merkow, Junjie Hu, Steve Y. Cho, Tyler J. Bradshaw,
- Abstract要約: 5,000点以上のPET/CT検診から3Dセグメンテーションと組み合わせた11,000点以上の病変レベル記述からなる大規模データセットを提案する。
本データセットに基づいて,PET,CT,病変輪郭を統合した3次元マスク対応視覚言語モデルPETAR-4Bを提案する。
- 参考スコア(独自算出の注目度): 10.800541081358132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models (VLMs) have enabled impressive multimodal reasoning, yet most medical applications remain limited to 2D imaging. In this work, we extend VLMs to 3D positron emission tomography and computed tomography (PET/CT), a domain characterized by large volumetric data, small and dispersed lesions, and lengthy radiology reports. We introduce a large-scale dataset comprising over 11,000 lesion-level descriptions paired with 3D segmentations from more than 5,000 PET/CT exams, extracted via a hybrid rule-based and large language model (LLM) pipeline. Building upon this dataset, we propose PETAR-4B, a 3D mask-aware vision-language model that integrates PET, CT, and lesion contours for spatially grounded report generation. PETAR bridges global contextual reasoning with fine-grained lesion awareness, producing clinically coherent and localized findings. Comprehensive automated and human evaluations demonstrate that PETAR substantially improves PET/CT report generation quality, advancing 3D medical vision-language understanding.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩により、印象的なマルチモーダル推論が可能になったが、ほとんどの医療応用は2Dイメージングに限られている。
本研究では,VLMを3次元ポジトロン断層撮影およびPET/CT(CT)に拡張する。
5,000点以上のPET/CT試験から11,000点以上の病変レベル記述と3Dセグメンテーションを組み合わせ,複合ルールベースおよび大規模言語モデル(LLM)パイプラインを用いて抽出した大規模データセットを提案する。
本データセットに基づいて,PET,CT,病変輪郭を統合した3次元マスク対応視覚言語モデルPETAR-4Bを提案する。
PETARは、微粒な病変の認識を伴うグローバルな文脈推論をブリッジし、臨床的に一貫性があり、局所的な発見をもたらす。
PETARはPET/CTレポート生成の質を大幅に向上し、3次元医用視覚言語理解の進歩を示す。
関連論文リスト
- PET2Rep: Towards Vision-Language Model-Drived Automated Radiology Report Generation for Positron Emission Tomography [24.091435019102587]
放射線学の報告は臨床的意思決定に不可欠であるが、その手作業による作成は労働集約的で時間を要する。
近年の視覚言語モデル(VLM)の進歩は医療応用において大きな可能性を秘めている。
PET画像の放射線診断レポート生成のための一般医用VLMの評価ベンチマークであるPET2Repを紹介する。
論文 参考訳(メタデータ) (2025-08-06T03:46:51Z) - SegAnyPET: Universal Promptable Segmentation from Positron Emission Tomography Images [21.883098685700666]
本研究は,PET画像からの普遍的プロンプト可能なセグメンテーションのためのモダリティ特異的な3次元基礎モデルであるSegAnyPETを開発する。
実験の結果,SegAnyPETは1点または数点のプロンプトポイントのみを用いて対象臓器をセグメント化できることがわかった。
論文 参考訳(メタデータ) (2025-02-20T08:17:13Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Score-Based Generative Models for PET Image Reconstruction [38.72868748574543]
本稿では,PETによるスコアベース生成モデルの適応について提案する。
提案するフレームワークは, 2D PET と 3D PET の両方に対して開発された。
また,磁気共鳴画像を用いたガイド再構成の拡張も提供する。
論文 参考訳(メタデータ) (2023-08-27T19:43:43Z) - Revisiting 3D Context Modeling with Supervised Pre-training for
Universal Lesion Detection in CT Slices [48.85784310158493]
CTスライスにおける普遍的病変検出のための3Dコンテキスト強化2D特徴を効率的に抽出するための修飾擬似3次元特徴ピラミッドネットワーク(MP3D FPN)を提案する。
新たな事前学習手法により,提案したMP3D FPNは,DeepLesionデータセット上での最先端検出性能を実現する。
提案された3Dプリトレーニングウェイトは、他の3D医療画像分析タスクのパフォーマンスを高めるために使用できる。
論文 参考訳(メタデータ) (2020-12-16T07:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。