論文の概要: Vision-Language Modeling in PET/CT for Visual Grounding of Positive Findings
- arxiv url: http://arxiv.org/abs/2502.00528v1
- Date: Sat, 01 Feb 2025 18:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:19.240071
- Title: Vision-Language Modeling in PET/CT for Visual Grounding of Positive Findings
- Title(参考訳): PET/CTにおける陽性所見の視覚的グラウンド化のための視覚言語モデル
- Authors: Zachary Huemann, Samuel Church, Joshua D. Warner, Daniel Tran, Xin Tie, Alan B McMillan, Junjie Hu, Steve Y. Cho, Meghan Lubner, Tyler J. Bradshaw,
- Abstract要約: 視覚言語モデルは、オブジェクトのテキスト記述と画像内の特定の位置を視覚的接地を通して接続することができる。
これらのモデルは、PET/CTに欠ける大きな注釈付き画像テキストデータセットを必要とする。
我々はPET/CTレポート記述と画像位置をリンクする弱いラベルを生成するための自動パイプラインを開発し、それを3次元視覚言語視覚接地モデルのトレーニングに使用した。
- 参考スコア(独自算出の注目度): 3.5437215225628576
- License:
- Abstract: Vision-language models can connect the text description of an object to its specific location in an image through visual grounding. This has potential applications in enhanced radiology reporting. However, these models require large annotated image-text datasets, which are lacking for PET/CT. We developed an automated pipeline to generate weak labels linking PET/CT report descriptions to their image locations and used it to train a 3D vision-language visual grounding model. Our pipeline finds positive findings in PET/CT reports by identifying mentions of SUVmax and axial slice numbers. From 25,578 PET/CT exams, we extracted 11,356 sentence-label pairs. Using this data, we trained ConTEXTual Net 3D, which integrates text embeddings from a large language model with a 3D nnU-Net via token-level cross-attention. The model's performance was compared against LLMSeg, a 2.5D version of ConTEXTual Net, and two nuclear medicine physicians. The weak-labeling pipeline accurately identified lesion locations in 98% of cases (246/251), with 7.5% requiring boundary adjustments. ConTEXTual Net 3D achieved an F1 score of 0.80, outperforming LLMSeg (F1=0.22) and the 2.5D model (F1=0.53), though it underperformed both physicians (F1=0.94 and 0.91). The model achieved better performance on FDG (F1=0.78) and DCFPyL (F1=0.75) exams, while performance dropped on DOTATE (F1=0.58) and Fluciclovine (F1=0.66). The model performed consistently across lesion sizes but showed reduced accuracy on lesions with low uptake. Our novel weak labeling pipeline accurately produced an annotated dataset of PET/CT image-text pairs, facilitating the development of 3D visual grounding models. ConTEXTual Net 3D significantly outperformed other models but fell short of the performance of nuclear medicine physicians. Our study suggests that even larger datasets may be needed to close this performance gap.
- Abstract(参考訳): 視覚言語モデルは、オブジェクトのテキスト記述と画像内の特定の位置を視覚的接地を通して接続することができる。
これは、拡張放射線学の報告に潜在的に応用できる。
しかし、これらのモデルはPET/CTに欠ける大きな注釈付き画像テキストデータセットを必要とする。
我々はPET/CTレポート記述と画像位置をリンクする弱いラベルを生成するための自動パイプラインを開発し、それを3次元視覚言語視覚接地モデルのトレーニングに使用した。
このパイプラインは, SUVmaxと軸スライス番号の言及を同定し, PET/CTで陽性であった。
25,578件のPET/CT検査で,11,356件の文ラベル対を抽出した。
このデータを用いて、トークンレベルのクロスアテンションを通じて、大きな言語モデルから3D nnU-Netへのテキスト埋め込みを統合するConTEXTual Net 3Dを訓練した。
モデルの性能は、ConTEXTual Netの2.5DバージョンであるLLMSegと、2人の核医学医師と比較された。
弱標識パイプラインは98%の症例(246/251)の病変位置を正確に同定し、7.5%は境界調整を必要とした。
ConTEXTual Net 3D は LLMSeg (F1=0.22) と2.5Dモデル (F1=0.53) を上回り、F1=0.94 と 0.91 の F1 スコアを達成した。
FDG (F1=0.78) と DCFPyL (F1=0.75) の試験では性能が向上し、DOTATE (F1=0.58) と Fluciclovine (F1=0.66) では性能が低下した。
このモデルでは, 病変の大きさは一定であったが, 吸収率の低い病変では, 精度が低下していた。
我々の新しい弱いラベル付けパイプラインは、PET/CT画像テキストペアの注釈付きデータセットを正確に生成し、3次元視覚的グラウンドリングモデルの開発を容易にした。
ConTEXTual Net 3Dは、他のモデルよりも優れていたが、核医学の医師のパフォーマンスには劣った。
我々の研究は、このパフォーマンスギャップを埋めるためにさらに大きなデータセットが必要であることを示唆している。
関連論文リスト
- Efficient 2D CT Foundation Model for Contrast Phase Classification [4.650290073034678]
下流コントラスト位相分類のための2次元CTスライスから埋め込みを生成するための2次元基礎モデルを構築した。
モデルはVinDrマルチフェーズデータセットで検証され、WAW-TACEデータセットで外部検証された。
3D教師付きモデルと比較して、アプローチはより速くトレーニングされ、パフォーマンスが良く、ドメインシフトに対するロバスト性が向上した。
論文 参考訳(メタデータ) (2025-01-23T20:01:33Z) - Data Diet: Can Trimming PET/CT Datasets Enhance Lesion Segmentation? [70.38903555729081]
我々はAutoPET3データ中心のトラックで競合するアプローチについて述べる。
AutoPETIIIデータセットでは、データセット全体をトレーニングしたモデルが望ましくない特性を示す。
我々は、スクラッチから再トレーニングする前に、モデル損失によって測定されたトレーニングデータセットから最も簡単なサンプルを取り除き、これを対処する。
論文 参考訳(メタデータ) (2024-09-20T14:47:58Z) - AutoPET Challenge III: Testing the Robustness of Generalized Dice Focal Loss trained 3D Residual UNet for FDG and PSMA Lesion Segmentation from Whole-Body PET/CT Images [0.0]
本研究では,3次元残差UNetモデルを用いて,汎用Dice Loss関数を用いてAutoPET Challenge 2024データセット上でモデルをトレーニングする。
Task-1の予備試験段階では、平均アンサンブルは平均Dice similarity Coefficient(DSC)が0.6687、平均偽陰体積(FNV)が10.9522ml、平均偽正体積(FPV)が2.9684mlに達した。
論文 参考訳(メタデータ) (2024-09-16T10:27:30Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - BeSt-LeS: Benchmarking Stroke Lesion Segmentation using Deep Supervision [0.0]
我々は、様々なエンドツーエンドの教師付きU-Netスタイルモデルをベンチマークするために、公開データセットATLAS $v2.0$を考える。
具体的には、2Dと3Dの両方の脳画像のモデルをベンチマークし、標準メトリクスを用いて評価した。
論文 参考訳(メタデータ) (2023-10-10T22:54:01Z) - Video Pretraining Advances 3D Deep Learning on Chest CT Tasks [63.879848037679224]
大規模自然画像分類データセットの事前学習は、データスカース2D医療タスクのモデル開発に役立っている。
これらの2Dモデルは、3Dコンピュータビジョンベンチマークで3Dモデルに勝っている。
3Dモデルのためのビデオ事前トレーニングにより、より小さなデータセットでより高性能な3D医療タスクを実現することができることを示す。
論文 参考訳(メタデータ) (2023-04-02T14:46:58Z) - 3D-GMIC: an efficient deep neural network to find small objects in large
3D images [41.334361182700164]
3Dイメージングは、臓器解剖に関する空間情報を提供することにより、より正確な診断を可能にする。
AIモデルのトレーニングに3Dイメージを使用することは、その2Dモデルよりも数十から数百倍のピクセルで構成されているため、計算的に困難である。
本稿では,3次元医用画像の完全解像度で計算効率の良い分類を可能にするニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-16T21:58:54Z) - 3D RegNet: Deep Learning Model for COVID-19 Diagnosis on Chest CT Image [9.407002591446286]
新型コロナウイルス感染症(Covid-19)患者の身体状態を診断するための3D-RegNetベースのニューラルネットワークを提案する。
その結果、3Dモデルの試験セット,f1スコア0.8379,AUC値0.8807が達成された。
論文 参考訳(メタデータ) (2021-07-08T18:10:07Z) - Automated Model Design and Benchmarking of 3D Deep Learning Models for
COVID-19 Detection with Chest CT Scans [72.04652116817238]
3D胸部CTスキャン分類のための3D DLモデルを自動的に検索するための差別化可能なニューラルネットワーク探索(DNAS)フレームワークを提案する。
また,我々のモデルのクラスアクティベーションマッピング(cam)技術を利用して,結果の解釈可能性を提供する。
論文 参考訳(メタデータ) (2021-01-14T03:45:01Z) - Revisiting 3D Context Modeling with Supervised Pre-training for
Universal Lesion Detection in CT Slices [48.85784310158493]
CTスライスにおける普遍的病変検出のための3Dコンテキスト強化2D特徴を効率的に抽出するための修飾擬似3次元特徴ピラミッドネットワーク(MP3D FPN)を提案する。
新たな事前学習手法により,提案したMP3D FPNは,DeepLesionデータセット上での最先端検出性能を実現する。
提案された3Dプリトレーニングウェイトは、他の3D医療画像分析タスクのパフォーマンスを高めるために使用できる。
論文 参考訳(メタデータ) (2020-12-16T07:11:16Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。