論文の概要: Uncovering Modality Discrepancy and Generalization Illusion for General-Purpose 3D Medical Segmentation
- arxiv url: http://arxiv.org/abs/2602.07643v1
- Date: Sat, 07 Feb 2026 17:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.738025
- Title: Uncovering Modality Discrepancy and Generalization Illusion for General-Purpose 3D Medical Segmentation
- Title(参考訳): 汎用3次元医用セグメンテーションにおけるモダリティの相違と一般化イリュージョンの解明
- Authors: Yichi Zhang, Feiyang Xiao, Le Xue, Wenbo Zhang, Gang Feng, Chenguang Zheng, Yuan Qi, Yuan Cheng, Zixin Hu,
- Abstract要約: 3D医療基盤モデルは汎用機能を備えた多目的ツールとして想定されている。
このデータセットは、490体のPET/CTと464体のPET/MRIスキャンからなる。
- 参考スコア(独自算出の注目度): 26.70378621396797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While emerging 3D medical foundation models are envisioned as versatile tools with offer general-purpose capabilities, their validation remains largely confined to regional and structural imaging, leaving a significant modality discrepancy unexplored. To provide a rigorous and objective assessment, we curate the UMD dataset comprising 490 whole-body PET/CT and 464 whole-body PET/MRI scans ($\sim$675k 2D images, $\sim$12k 3D organ annotations) and conduct a thorough and comprehensive evaluation of representative 3D segmentation foundation models. Through intra-subject controlled comparisons of paired scans, we isolate imaging modality as the primary independent variable to evaluate model robustness in real-world applications. Our evaluation reveals a stark discrepancy between literature-reported benchmarks and real-world efficacy, particularly when transitioning from structural to functional domains. Such systemic failures underscore that current 3D foundation models are far from achieving truly general-purpose status, necessitating a paradigm shift toward multi-modal training and evaluation to bridge the gap between idealized benchmarking and comprehensive clinical utility. This dataset and analysis establish a foundational cornerstone for future research to develop truly modality-agnostic medical foundation models.
- Abstract(参考訳): 新たな3D医療基盤モデルは汎用機能を備えた汎用ツールとして想定されているが、その検証は主に地域的、構造的な画像に限られており、重要なモダリティの相違は未解明のままである。
490体PET/CTと464体PET/MRIスキャン($\sim$675k2D画像,$\sim$12k3D臓器アノテーション)からなるUDDデータセットをキュレートし、代表的3Dセグメンテーション基盤モデルの徹底的かつ包括的な評価を行う。
実世界の応用におけるモデルロバスト性を評価するために, 画像モダリティを一次独立変数として分離する。
文献報告されたベンチマークと実世界の有効性,特に構造的ドメインから機能的ドメインへ移行する場合の相違が明らかとなった。
このようなシステム的失敗は、現在の3D基盤モデルは、真の汎用的な状態を達成するには程遠いことを示し、マルチモーダルトレーニングへのパラダイムシフトと、理想化されたベンチマークと総合的な臨床ユーティリティのギャップを埋めるための評価を必要としている。
このデータセットと分析は、真にモダリティに依存しない医療基盤モデルを開発するための将来の研究の基礎となる基盤を確立する。
関連論文リスト
- Med3D-R1: Incentivizing Clinical Reasoning in 3D Medical Vision-Language Models for Abnormality Diagnosis [20.302134776419955]
我々は,2段階の学習プロセスを持つ強化学習フレームワークを提案する: 教師付きファインチューニング(SFT)と強化学習(RL)。
RLの段階では、整合性報酬を再定義し、整合性、ステップバイステップの診断推論を明示的に促進する。
本モデルではCT-RATEでは41.92%,RAD-ChestCTでは44.99%の精度が得られた。
論文 参考訳(メタデータ) (2026-02-01T12:43:11Z) - Rethinking Whole-Body CT Image Interpretation: An Abnormality-Centric Approach [57.86418347491272]
全身に404例の異常所見を呈する包括的階層分類システムを提案する。
複数平面および全人体領域からの14.5K以上のCT画像を含むデータセットを寄贈し,19K以上の異常に対する接地アノテーションを念頭に提供した。
OminiAbnorm-CTは,テキストクエリに基づいて,多面的および全身的なCT画像に異常な所見を自動的に検出し,記述することができる。
論文 参考訳(メタデータ) (2025-06-03T17:57:34Z) - AI-Assisted Colonoscopy: Polyp Detection and Segmentation using Foundation Models [0.10037949839020764]
大腸内視鏡検査では、Deep Learningモデルの助けを借りて、欠落したポリープの80%を検出できた。
この課題に対処できるアルゴリズムの探索において、ファンデーションモデルは有望な候補として浮上する。
ゼロショットまたは少数ショットの学習機能により、広範囲の微調整なしに、新しいデータやタスクへの一般化が容易になる。
ポリプセグメンテーションの基礎モデルを総合的に評価し, 検出と分解の両面から評価した。
論文 参考訳(メタデータ) (2025-03-31T14:20:53Z) - 3D Foundation Model for Generalizable Disease Detection in Head Computed Tomography [5.65192078662102]
本稿では,頭部CTの基礎モデルであるFM-CTについて紹介する。
提案手法では,手動アノテーションを必要とせずに,361,663個の非コントラスト3次元頭部CTスキャンの大規模データセット上で,ディープラーニングモデルを事前学習する。
以上の結果から, 自己監督基盤モデルにより下流診断における性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T23:42:18Z) - SAM-Med3D-MoE: Towards a Non-Forgetting Segment Anything Model via Mixture of Experts for 3D Medical Image Segmentation [36.95030121663565]
Supervised Finetuning (SFT) は、タスク固有の下流タスクに基礎モデルを適用する効果的な方法として機能する。
本稿では,タスク固有の微調整モデルと基礎モデルとをシームレスに統合する新しいフレームワークSAM-Med3D-MoEを提案する。
実験では, SAM-Med3D-MoEの有効性を実証し, 平均Dice性能は15種類のクラスで53から56.4に向上した。
論文 参考訳(メタデータ) (2024-07-06T03:03:45Z) - Self-supervised 3D Patient Modeling with Multi-modal Attentive Fusion [32.71972792352939]
3次元患者体モデリングは、スマート・メディカル・スキャンおよび手術室における患者の自動位置決めの成功に不可欠である。
既存のCNNベースのエンドツーエンドの患者モデリングソリューションは、通常、大量の関連するトレーニングデータを必要とするカスタマイズされたネットワーク設計を必要とする。
a) 2次元関節局所化のための注意融合を伴うマルチモーダルキーポイント検出モジュールからなる汎用的なモジュール化された3次元患者モデリング手法を提案する。
本手法の有効性を,公用および臨床用両方のデータを用いた広範囲な患者位置決め実験により実証した。
論文 参考訳(メタデータ) (2024-03-05T18:58:55Z) - Large-scale Long-tailed Disease Diagnosis on Radiology Images [51.453990034460304]
RadDiagは、様々なモダリティと解剖学にわたる2Dおよび3D入力をサポートする基礎モデルである。
私たちのデータセットであるRP3D-DiagDSは、5,568の障害をカバーする195,010のスキャンで40,936の症例を含む。
論文 参考訳(メタデータ) (2023-12-26T18:20:48Z) - Towards Generalist Foundation Model for Radiology by Leveraging
Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。
われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。
本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T17:00:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。