論文の概要: VolDiT: Controllable Volumetric Medical Image Synthesis with Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2603.25181v1
- Date: Thu, 26 Mar 2026 08:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.192693
- Title: VolDiT: Controllable Volumetric Medical Image Synthesis with Diffusion Transformers
- Title(参考訳): VolDiT:拡散変換器を用いた可制御容積医用画像合成
- Authors: Marvin Seyfarth, Salman Ul Hassan Dar, Yannik Frisch, Philipp Wild, Norbert Frey, Florian André, Sandy Engelhardt,
- Abstract要約: VolDiTは、容積医用画像合成のための最初の純粋変換器ベースの3D拡散変換器である。
提案手法は,拡散トランスフォーマーをボリュームパッチ埋め込みとグローバル自己注意によりネイティブな3Dデータに拡張する。
その結果, グローバルコヒーレンスの向上, 生成能の向上, 制御性の向上が示された。
- 参考スコア(独自算出の注目度): 1.2183341965249979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have become a leading approach for high-fidelity medical image synthesis. However, most existing methods for 3D medical image generation rely on convolutional U-Net backbones within latent diffusion frameworks. While effective, these architectures impose strong locality biases and limited receptive fields, which may constrain scalability, global context integration, and flexible conditioning. In this work, we introduce VolDiT, the first purely transformer-based 3D Diffusion Transformer for volumetric medical image synthesis. Our approach extends diffusion transformers to native 3D data through volumetric patch embeddings and global self-attention operating directly over 3D tokens. To enable structured control, we propose a timestep-gated control adapter that maps segmentation masks into learnable control tokens that modulate transformer layers during denoising. This token-level conditioning mechanism allows precise spatial guidance while preserving the modeling advantages of transformer architectures. We evaluate our model on high-resolution 3D medical image synthesis tasks and compare it to state-of-the-art 3D latent diffusion models based on U-Nets. Results demonstrate improved global coherence, superior generative fidelity, and enhanced controllability. Our findings suggest that fully transformerbased diffusion models provide a flexible foundation for volumetric medical image synthesis. The code and models trained on public data are available at https://github.com/Cardio-AI/voldit.
- Abstract(参考訳): 拡散モデルは高忠実度医用画像合成における主要なアプローチとなっている。
しかし、既存の医用画像生成手法のほとんどは、潜伏拡散フレームワーク内の畳み込みU-Netバックボーンに依存している。
効果はあるものの、これらのアーキテクチャは強い局所性バイアスと限定的な受容場を課し、拡張性、グローバルなコンテキスト統合、フレキシブルな条件付けを制約する可能性がある。
本稿では,VolDiTについて紹介する。VolDiTは,容積医用画像合成のための,最初の純粋変換器を用いた3次元拡散変換器である。
提案手法は,3Dトークンを直接操作するボリュームパッチ埋め込みやグローバル自己保持を通じて,拡散トランスフォーマーをネイティブな3Dデータに拡張する。
構造化制御を実現するために,分割マスクを学習可能な制御トークンにマッピングし,復調時にトランスフォーマー層を変調するタイムステップゲート制御アダプタを提案する。
このトークンレベルの条件付け機構は、トランスアーキテクチャのモデリング上の利点を保ちながら、正確な空間ガイダンスを可能にする。
我々は,高分解能な3次元医用画像合成タスクの評価を行い,それをU-Netに基づく最先端の3D潜伏拡散モデルと比較した。
その結果, グローバルコヒーレンスの向上, 生成能の向上, 制御性の向上が示された。
本研究は, フルトランスフォーマーを用いた拡散モデルが, 容積医用画像合成の柔軟な基盤となることを示唆している。
公開データでトレーニングされたコードとモデルはhttps://github.com/Cardio-AI/voldit.comで公開されている。
関連論文リスト
- Towards Unified and Lossless Latent Space for 3D Molecular Latent Diffusion Modeling [90.23688195918432]
3次元分子生成は、薬物発見と物質科学に不可欠である。
既存のアプローチは、典型的には不変かつ同変なモジュラリティに対して別々のラテント空間を保持する。
我々は,3次元分子を潜在空間から潜在配列に圧縮するマルチモーダルVAEである textbfUAE-3D を提案する。
論文 参考訳(メタデータ) (2025-03-19T08:56:13Z) - Introducing 3D Representation for Medical Image Volume-to-Volume Translation via Score Fusion [3.3559609260669303]
Score-Fusionは、垂直に訓練された2次元拡散モデルをスコア関数空間に組み込むことで、3次元表現を効果的に学習する新しいボリューム変換モデルである。
Score-Fusionは,3次元医用画像の高分解能・モダリティ変換において,高い精度と容積忠実性が得られることを示す。
論文 参考訳(メタデータ) (2025-01-13T15:54:21Z) - Diff3Dformer: Leveraging Slice Sequence Diffusion for Enhanced 3D CT Classification with Transformer Networks [5.806035963947936]
拡散型3次元視覚変換器(Diff3Dformer)を提案する。
本手法は, 肺CTの2種類の小さなデータセットに対して, 改良された性能を示す。
論文 参考訳(メタデータ) (2024-06-24T23:23:18Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - Make-A-Volume: Leveraging Latent Diffusion Models for Cross-Modality 3D
Brain MRI Synthesis [35.45013834475523]
クロスモダリティ医療画像合成は重要なトピックであり、医療画像分野における多くの応用を促進する可能性がある。
現在の医療画像合成法のほとんどは、生成的敵ネットワークに依存しており、悪名高いモード崩壊と不安定な訓練に悩まされている。
本稿では,2次元バックボーンを利用した医療データ合成のための新しいパラダイムを提案し,拡散型フレームワークであるMake-A-Volumeを提案する。
論文 参考訳(メタデータ) (2023-07-19T16:01:09Z) - Control3Diff: Learning Controllable 3D Diffusion Models from Single-view
Images [70.17085345196583]
Control3Diffは拡散モデルと3D GANの強みを組み合わせた3次元拡散モデルである。
FFHQ,AFHQ,ShapeNet などの標準画像生成ベンチマークにおける Control3Diff の有効性を検証する。
論文 参考訳(メタデータ) (2023-04-13T17:52:29Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。