論文の概要: MedVAR: Towards Scalable and Efficient Medical Image Generation via Next-scale Autoregressive Prediction
- arxiv url: http://arxiv.org/abs/2602.14512v1
- Date: Mon, 16 Feb 2026 06:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.239539
- Title: MedVAR: Towards Scalable and Efficient Medical Image Generation via Next-scale Autoregressive Prediction
- Title(参考訳): MedVAR: 次世代自動回帰予測によるスケーラブルで効率的な医用画像生成を目指して
- Authors: Zhicheng He, Yunpeng Zhao, Junde Wu, Ziwei Niu, Zijun Li, Lanfen Lin, Yueming Jin,
- Abstract要約: 医療画像のためのスケーラブルな生成バックボーンは、アーキテクチャ効率、十分な多臓器データ、原則化された評価を必要とする。
我々は、次世代の予測パラダイムを採用し、高速でスケールアップしやすい医用画像合成を可能にする、最初の自己回帰ベース基盤モデルであるMed VARを紹介する。
階層生成を支援するため、6つの解剖学的領域にまたがる約4万個のCTおよびMRI画像の調和データセットをキュレートした。
- 参考スコア(独自算出の注目度): 26.174322524147538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical image generation is pivotal in applications like data augmentation for low-resource clinical tasks and privacy-preserving data sharing. However, developing a scalable generative backbone for medical imaging requires architectural efficiency, sufficient multi-organ data, and principled evaluation, yet current approaches leave these aspects unresolved. Therefore, we introduce MedVAR, the first autoregressive-based foundation model that adopts the next-scale prediction paradigm to enable fast and scale-up-friendly medical image synthesis. MedVAR generates images in a coarse-to-fine manner and produces structured multi-scale representations suitable for downstream use. To support hierarchical generation, we curate a harmonized dataset of around 440,000 CT and MRI images spanning six anatomical regions. Comprehensive experiments across fidelity, diversity, and scalability show that MedVAR achieves state-of-the-art generative performance and offers a promising architectural direction for future medical generative foundation models.
- Abstract(参考訳): 医療画像生成は、低リソースの臨床タスクのためのデータ拡張や、プライバシ保護データ共有といったアプリケーションにおいて重要な役割を担っている。
しかし、医療画像のためのスケーラブルな生成バックボーンの開発には、アーキテクチャ効率、十分なマルチ組織データ、原則化された評価が必要であるが、現在のアプローチではこれらの側面は未解決のままである。
そこで我々は,次世代の予測パラダイムを取り入れた最初の自己回帰ベース基盤モデルであるMedVARを導入し,高速でスケールアップしやすい医用画像合成を実現する。
MedVARは粗い方法で画像を生成し、下流での使用に適した構造化されたマルチスケール表現を生成する。
階層生成を支援するため、6つの解剖学的領域にまたがる約4万個のCTおよびMRI画像の調和データセットをキュレートした。
完全性、多様性、拡張性に関する総合的な実験は、MedVARが最先端の生成性能を達成し、将来の医療再生基盤モデルに有望なアーキテクチャの方向性を提供することを示している。
関連論文リスト
- MedDChest: A Content-Aware Multimodal Foundational Vision Model for Thoracic Imaging [3.0332210076508326]
我々は胸部画像に特化して最適化された新しい基礎的視覚変換器(ViT)モデルであるMedDChestを提案する。
われわれはMedDChestを、120万枚以上の画像からなる大規模でキュレートされたマルチモーダルデータセットでゼロからトレーニングした。
我々は、下流の様々な診断タスクを微調整することで、モデルの有効性を検証する。
論文 参考訳(メタデータ) (2025-11-06T03:28:56Z) - MedLoRD: A Medical Low-Resource Diffusion Model for High-Resolution 3D CT Image Synthesis [1.1741781892171472]
MedLoRDは,計算資源制約環境向けに設計された生成拡散モデルである。
MedLoRDは512$times$512$times$256までの高次元医療ボリュームを生成することができる。
冠動脈CT(Corary Computed Tomography Angiography)や肺CT(Lung Computed Tomography)データセットなど,複数のモードで評価されている。
論文 参考訳(メタデータ) (2025-03-17T14:22:49Z) - RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining [64.66825253356869]
本稿では,複数の粒度で画像の類似度を決定するために,高密度ラジオロジーレポートを利用した新しい手法を提案する。
我々は、胸部X線用MIMIC-IRとCTスキャン用CTRATE-IRの2つの総合的な医用画像検索データセットを構築した。
RadIR-CXR と Model-ChestCT という2つの検索システムを開発し,従来の画像画像検索と画像レポート検索に優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-06T17:43:03Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。
このアプローチは、これらのモダリティに存在する相補的な情報を活用し、様々な医療応用の精度を高めることを目的としている。
論文 参考訳(メタデータ) (2024-03-20T05:50:04Z) - Building Universal Foundation Models for Medical Image Analysis with
Spatially Adaptive Networks [5.661631789478932]
医用画像解析のための普遍的基礎モデルを提案する。
55の公開医用画像データセット上のマスク画像モデリング(MIM)を用いて、空間適応型視覚トークンーザ(SPAD-VT)と空間適応型視覚変換器(SPAD-ViT)を事前訓練する。
下流の医用画像分類とセグメンテーションタスクの実験結果から,本モデルの性能とラベルの効率が向上したことを示す。
論文 参考訳(メタデータ) (2023-12-12T08:33:45Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。