論文の概要: TotalFM: An Organ-Separated Framework for 3D-CT Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2601.00260v1
- Date: Thu, 01 Jan 2026 08:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.343164
- Title: TotalFM: An Organ-Separated Framework for 3D-CT Vision Foundation Models
- Title(参考訳): TotalFM: 3D-CTビジョンファウンデーションモデルのための組織分離フレームワーク
- Authors: Kohei Yamamoto, Tomohiro Kikuchi,
- Abstract要約: TotalFMは3D-CT画像と言語表現の対応を効率的に学習する基礎モデルである。
ゼロショット臓器病変分類では,CT-CLIPの83%(5/6),Merlinの64%(9/14)のF1スコアが得られた。
本研究は,臓器分離学習フレームワークが3D-CTファウンデーションモデルの実践的実装において,現実的で効果的な設計ガイドラインとして機能できることを実証する。
- 参考スコア(独自算出の注目度): 4.145240274022923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While foundation models in radiology are expected to be applied to various clinical tasks, computational cost constraints remain a major challenge when training on 3D-CT volumetric data. In this study, we propose TotalFM, a radiological foundation model that efficiently learns the correspondence between 3D-CT images and linguistic expressions based on the concept of organ separation, utilizing a large-scale dataset of 140,000 series. By automating the creation of organ volume and finding-sentence pairs through segmentation techniques and Large Language Model (LLM)-based radiology report processing, and by combining self-supervised pre-training via VideoMAE with contrastive learning using volume-text pairs, we aimed to balance computational efficiency and representation capability. In zero-shot organ-wise lesion classification tasks, the proposed model achieved higher F1 scores in 83% (5/6) of organs compared to CT-CLIP and 64% (9/14) of organs compared to Merlin. These results suggest that the proposed model exhibits high generalization performance in a clinical evaluation setting using actual radiology report sentences. Furthermore, in zero-shot finding-wise lesion classification tasks, our model achieved a higher AUROC in 83% (25/30) of finding categories compared to Merlin. We also confirmed performance comparable to existing Vision-Language Models (VLMs) in radiology report generation tasks. Our results demonstrate that the organ-separated learning framework can serve as a realistic and effective design guideline for the practical implementation of 3D-CT foundation models.
- Abstract(参考訳): 放射線学の基礎モデルは様々な臨床に応用されることが期待されているが、3D-CTボリュームデータのトレーニングでは計算コストの制約が大きな課題である。
本研究では,臓器分離の概念に基づいて3D-CT画像と言語表現の対応を効率的に学習する放射線基礎モデルであるTotalFMを提案する。
分類手法とLarge Language Model(LLM)に基づく放射線学レポート処理による臓器容積と発見文ペアの自動作成,およびビデオMAEによる自己教師付き事前学習とボリュームテキストペアを用いたコントラスト学習を組み合わせることにより,計算効率と表現能力のバランスをとることを目的とした。
ゼロショット臓器病変分類では,CT-CLIPの83%(5/6),Merlinの64%(9/14)のF1スコアが得られた。
以上の結果から,実際の放射線学報告文を用いた臨床評価において,本モデルが高い一般化性能を示すことが示唆された。
さらに, ゼロショット病変分類タスクでは, マーリンと比較して83% (25/30) のAUROCを達成できた。
また,放射線学レポート生成タスクにおける既存の視覚言語モデル (VLM) に匹敵する性能を確認した。
本研究は,臓器分離学習フレームワークが3D-CTファウンデーションモデルの実践的実装において,現実的で効果的な設計ガイドラインとして機能できることを実証する。
関連論文リスト
- Demystifying Deep Learning-based Brain Tumor Segmentation with 3D UNets and Explainable AI (XAI): A Comparative Analysis [1.5958130875154202]
この研究は、脳腫瘍のセグメンテーションにUNetモデルを適用することに焦点を当てた。
3つのディープラーニングモデルを評価し,最も優れたモデルを特定した。
ResUNetは最高のパフォーマンスモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-09T05:03:31Z) - Unified Supervision For Vision-Language Modeling in 3D Computed Tomography [1.4193731654133002]
汎用視覚言語モデル(VLM)は放射線学において有望なツールとして登場し、ゼロショット機能を提供している。
診断放射線学のような高度な領域では、これらのモデルは信頼できる臨床使用に必要な識別精度を欠いていることが多い。
分類ラベルやセグメンテーションマスクにエンコードされた多種多様な監視信号を統合するボリュームVLMであるUniferumを,単一のトレーニングフレームワークに導入する。
論文 参考訳(メタデータ) (2025-09-01T15:30:17Z) - Evaluating Vision Language Models (VLMs) for Radiology: A Comprehensive Analysis [4.803310914375717]
本研究では,3つの視覚言語基盤モデル(RAD-DINO,CheXagent,BiomedCLIP)を,放射線学タスクの微細な画像特徴を捉える能力について評価した。
胸部X線写真上, 気胸, 心肥大に対する分類, セグメンテーション, 回帰作業で評価した。
論文 参考訳(メタデータ) (2025-04-22T17:20:34Z) - Abnormality-Driven Representation Learning for Radiology Imaging [0.8321462983924758]
病変強調型コントラスト学習(LeCL)は,CTスキャンの異なる部位にわたる2次元軸方向スライスにおける異常により引き起こされる視覚的表現を得るための新しい手法である。
本研究は, 腫瘍病変位置, 肺疾患検出, 患者ステージングの3つの臨床的課題に対するアプローチを, 最先端の4つの基礎モデルと比較した。
論文 参考訳(メタデータ) (2024-11-25T13:53:26Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation [42.06416052431378]
2Dラジオグラフィーキャプションは、ボリューム3D解剖学における現実の診断課題を反映するものではない。
我々は18,885組の3D-BrainCTデータセットを収集し,臨床ビジュアルインストラクション・チューニングを用いて,脳波モデルを用いて放射線治療を施した3D脳CTレポートを作成した。
私たちの研究は、3Dの脳CTデータセットのキュレーション、微調整による解剖学的意味のある言語モデル、堅牢な放射線学評価指標の提案など、総合的な枠組みを具現化したものです。
論文 参考訳(メタデータ) (2024-07-02T12:58:35Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。