論文の概要: Are Video Models Emerging as Zero-Shot Learners and Reasoners in Medical Imaging?
- arxiv url: http://arxiv.org/abs/2510.10254v1
- Date: Sat, 11 Oct 2025 15:19:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.861919
- Title: Are Video Models Emerging as Zero-Shot Learners and Reasoners in Medical Imaging?
- Title(参考訳): 医用画像におけるゼロショット学習者・推論者としての映像モデル
- Authors: Yuxiang Lai, Jike Zhong, Ming Li, Yuheng Li, Xiaofeng Yang,
- Abstract要約: 4つのタスクからなるゼロショット設定において,大きな視覚モデル(LVM)を評価する。
このモデルはCTスキャンで解剖学的構造を記述し、セグメンテーション、デノナイジング、モーション予測における競合性能を達成することができる。
122例の4次元CTデータに対するLVMの評価を行い,3次元CTボリュームは1,820例以上であった。
- 参考スコア(独自算出の注目度): 21.25724100313781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large generative models have shown that simple autoregressive formulations, when scaled appropriately, can exhibit strong zero-shot generalization across domains. Motivated by this trend, we investigate whether autoregressive video modeling principles can be directly applied to medical imaging tasks, despite the model never being trained on medical data. Specifically, we evaluate a large vision model (LVM) in a zero-shot setting across four representative tasks: organ segmentation, denoising, super-resolution, and motion prediction. Remarkably, even without domain-specific fine-tuning, the LVM can delineate anatomical structures in CT scans and achieve competitive performance on segmentation, denoising, and super-resolution. Most notably, in radiotherapy motion prediction, the model forecasts future 3D CT phases directly from prior phases of a 4D CT scan, producing anatomically consistent predictions that capture patient-specific respiratory dynamics with realistic temporal coherence. We evaluate the LVM on 4D CT data from 122 patients, totaling over 1,820 3D CT volumes. Despite no prior exposure to medical data, the model achieves strong performance across all tasks and surpasses specialized DVF-based and generative baselines in motion prediction, achieving state-of-the-art spatial accuracy. These findings reveal the emergence of zero-shot capabilities in medical video modeling and highlight the potential of general-purpose video models to serve as unified learners and reasoners laying the groundwork for future medical foundation models built on video models.
- Abstract(参考訳): 大規模生成モデルの最近の進歩は、単純な自己回帰的定式化が適切にスケールすると、ドメイン間で強いゼロショット一般化を示すことを示した。
この傾向に触発されて,医療用画像に自己回帰ビデオモデリングの原則が直接適用できるかどうかを考察する。
具体的には,臓器のセグメンテーション,分極化,超解像化,動き予測の4つのタスクにまたがるゼロショット設定において,大きな視覚モデル(LVM)を評価する。
注目すべきは、ドメイン固有の微調整がなくても、LVMはCTスキャンで解剖学的構造を記述し、セグメンテーション、デノナイジング、超解像における競合的な性能を達成することができることである。
とりわけ放射線治療の運動予測において、このモデルは4D CTスキャンの前フェーズから直接将来の3DCTフェーズを予測し、解剖学的に一貫した予測を行い、患者固有の呼吸動態を現実的な時間的コヒーレンスで捉える。
122例の4次元CTデータに対するLVMの評価を行い,3次元CTボリュームは1,820例以上であった。
医療データへの事前の露出にもかかわらず、このモデルは全タスクにわたって強力なパフォーマンスを達成し、モーション予測における専門的なDVFベースおよび生成ベースラインを超越し、最先端の空間精度を達成する。
これらの知見は、医用ビデオモデリングにおけるゼロショット機能の出現を明らかにし、ビデオモデル上に構築された将来の医療基盤モデルの基礎となる、統合学習者や推論者として機能する汎用ビデオモデルの可能性を明らかにする。
関連論文リスト
- Glioblastoma Overall Survival Prediction With Vision Transformers [6.318465743962574]
グリオ芽腫は最も攻撃的で一般的な脳腫瘍の1つで、生存期間は10~15ヶ月である。
本研究では,MRI画像を用いた総合生存(OS)予測のための新しい人工知能(AI)手法を提案する。
我々は視覚変換器(ViT)を用いてMRI画像から直接隠れた特徴を抽出し,腫瘍のセグメンテーションの必要性を排除した。
提案したモデルは、BRATSデータセットで評価され、テストセット上で62.5%の精度を達成した。
論文 参考訳(メタデータ) (2025-08-04T13:59:57Z) - Towards a general-purpose foundation model for fMRI analysis [58.06455456423138]
我々は,4次元fMRIボリュームから学習し,多様なアプリケーション間で効率的な知識伝達を可能にするフレームワークであるNeuroSTORMを紹介する。
NeuroSTORMは、複数のセンターにまたがる5万人以上の被験者から5歳から100歳までの28.65万fMRIフレーム(→9000時間)で事前トレーニングされている。
年齢/性別予測、表現型予測、疾患診断、fMRI-to-image検索、タスクベースのfMRIの5つのタスクにおいて、既存の手法よりも優れています。
論文 参考訳(メタデータ) (2025-06-11T23:51:01Z) - Computationally Efficient Diffusion Models in Medical Imaging: A Comprehensive Review [8.314889727337198]
拡散モデルはコンピュータビジョンにおいて強力なアプローチとして登場し、生成人工知能の分野で顕著な性能を示した。
本稿では,拡散モデルの最新の進歩を,DPM(Denoising Diffusion Probabilistic Model),LDM(Latent Diffusion Model),WDM(Wavelet Diffusion Model)の3つの主要なモデルに分類する。
これらのモデルが医療画像において重要な役割を担い、高速で信頼性があり、高品質な医療画像を生成することは、異常や疾患の診断の正確な分析に不可欠である。
論文 参考訳(メタデータ) (2025-05-09T07:56:04Z) - 3D Foundation Model for Generalizable Disease Detection in Head Computed Tomography [5.65192078662102]
本稿では,頭部CTの基礎モデルであるFM-CTについて紹介する。
提案手法では,手動アノテーションを必要とせずに,361,663個の非コントラスト3次元頭部CTスキャンの大規模データセット上で,ディープラーニングモデルを事前学習する。
以上の結果から, 自己監督基盤モデルにより下流診断における性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T23:42:18Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - Exploring Foundation Models for Synthetic Medical Imaging: A Study on Chest X-Rays and Fine-Tuning Techniques [0.49000940389224884]
機械学習は、疾患の予防と治療の特定を支援することで、医療を著しく進歩させた。
しかし、プライバシの懸念と厳格な規制のため、患者データへのアクセスは困難である可能性がある。
近年の研究では、微調整基礎モデルがこのようなデータを効果的に生成できることが示唆されている。
論文 参考訳(メタデータ) (2024-09-06T17:36:08Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。