論文の概要: DINOv3-Guided Cross Fusion Framework for Semantic-aware CT generation from MRI and CBCT
- arxiv url: http://arxiv.org/abs/2511.12098v1
- Date: Sat, 15 Nov 2025 08:26:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.604973
- Title: DINOv3-Guided Cross Fusion Framework for Semantic-aware CT generation from MRI and CBCT
- Title(参考訳): DINOv3-Guided Cross Fusion Framework for Semantic-Aware CT generation from MRI and CBCT
- Authors: Xianhao Zhou, Jianghao Wu, Ku Zhao, Jinlong He, Huangxuan Zhao, Lei Chen, Shaoting Zhang, Guotai Wang,
- Abstract要約: 凍結自己制御型DINOv3トランスフォーマーとトレーニング可能なCNNエンコーダデコーダを統合したDINOv3-Guided Cross Fusionフレームワークを提案する。
階層的にトランスフォーマーのグローバルな表現とCNNのローカルな特徴を融合させ、バランスの取れたローカルな外観と文脈的な表現を実現する。
SynthRAD2023 pelvicデータセットの実験では、DGCFがMS-SSIM、PSNR、セグメンテーションベースのメトリクスで最先端のパフォーマンスを達成したことが示されている。
- 参考スコア(独自算出の注目度): 16.812174239308337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating synthetic CT images from CBCT or MRI has a potential for efficient radiation dose planning and adaptive radiotherapy. However, existing CNN-based models lack global semantic understanding, while Transformers often overfit small medical datasets due to high model capacity and weak inductive bias. To address these limitations, we propose a DINOv3-Guided Cross Fusion (DGCF) framework that integrates a frozen self-supervised DINOv3 Transformer with a trainable CNN encoder-decoder. It hierarchically fuses global representation of Transformer and local features of CNN via a learnable cross fusion module, achieving balanced local appearance and contextual representation. Furthermore, we introduce a Multi-Level DINOv3 Perceptual (MLDP) loss that encourages semantic similarity between synthetic CT and the ground truth in DINOv3's feature space. Experiments on the SynthRAD2023 pelvic dataset demonstrate that DGCF achieved state-of-the-art performance in terms of MS-SSIM, PSNR and segmentation-based metrics on both MRI$\rightarrow$CT and CBCT$\rightarrow$CT translation tasks. To the best of our knowledge, this is the first work to employ DINOv3 representations for medical image translation, highlighting the potential of self-supervised Transformer guidance for semantic-aware CT synthesis. The code is available at https://github.com/HiLab-git/DGCF.
- Abstract(参考訳): CBCTやMRIから合成CT画像を生成することは、効率的な放射線線量計画と適応放射線治療の可能性を秘めている。
しかし、既存のCNNベースのモデルはグローバルなセマンティック理解に欠けており、Transformerはモデルキャパシティが高く、誘導バイアスが弱いため、小さな医療データセットに過度に適合することが多い。
これらの制約に対処するために,凍結自己教師型DINOv3トランスフォーマとトレーニング可能なCNNエンコーダデコーダを統合したDINOv3-Guided Cross Fusion (DGCF) フレームワークを提案する。
階層的にTransformerのグローバルな表現とCNNのローカルな特徴を学習可能なクロスフュージョンモジュールを通じて融合し、バランスの取れたローカルな外観とコンテキストの表現を実現する。
さらに,DINOv3の特徴空間における合成CTと基底真実とのセマンティックな類似性を促進するマルチレベルDINOv3知覚(MLDP)ロスを導入する。
SynthRAD2023ペルビックデータセットの実験では、DGCFがMRI$\rightarrow$CTとCBCT$\rightarrow$CTの両方の翻訳タスクでMS-SSIM、PSNR、セグメンテーションベースのメトリクスで最先端のパフォーマンスを達成したことが示されている。
我々の知る限りでは、DINOv3表現を医用画像翻訳に適用する最初の試みであり、意味認識型CT合成のための自己教師型トランスフォーマーガイダンスの可能性を強調している。
コードはhttps://github.com/HiLab-git/DGCFで公開されている。
関連論文リスト
- SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - BEFUnet: A Hybrid CNN-Transformer Architecture for Precise Medical Image
Segmentation [0.0]
本稿では,医療画像の正確な分割のために,身体情報とエッジ情報の融合を強化するBEFUnetという,革新的なU字型ネットワークを提案する。
BEFUnetは、新しいローカル・クロス・アテンション・フィーチャー(LCAF)融合モジュール、新しいダブル・レベル・フュージョン(DLF)モジュール、デュアルブランチ・エンコーダの3つの主要モジュールから構成されている。
LCAFモジュールは、2つのモダリティの間に空間的に近接する特徴に対して、局所的な相互注意を選択的に行うことにより、エッジとボディの特徴を効率よく融合させる。
論文 参考訳(メタデータ) (2024-02-13T21:03:36Z) - CAFCT-Net: A CNN-Transformer Hybrid Network with Contextual and Attentional Feature Fusion for Liver Tumor Segmentation [3.8952128960495638]
肝腫瘍分節化のためのコンテクスト・アテンショナル機能FusionsEnhanced Convolutional Network (CNN) と Transformer Hybrid Network (CAFCT-Net) を提案する。
実験の結果,提案モデルの平均断面積は76.54%,Dice係数は84.29%であった。
論文 参考訳(メタデータ) (2024-01-30T10:42:11Z) - CATS v2: Hybrid encoders for robust medical segmentation [12.194439938007672]
畳み込みニューラルネットワーク(CNN)は、医用画像分割タスクにおいて強力な性能を示した。
しかし、畳み込みカーネルの視野が限られているため、CNNがグローバル情報を完全に表現することは困難である。
ローカル情報とグローバル情報の両方を活用するハイブリッドエンコーダを用いたCATS v2を提案する。
論文 参考訳(メタデータ) (2023-08-11T20:21:54Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors
in MRI Images [7.334185314342017]
我々はSwin UNEt TRansformers(Swin UNETR)と呼ばれる新しいセグメンテーションモデルを提案する。
このモデルは、シフトしたウィンドウを利用して、5つの異なる解像度で特徴を抽出し、自己注意を演算する。
我々は、BraTS 2021セグメンテーションチャレンジに参加し、提案したモデルは、検証フェーズにおける最も優れたアプローチの1つである。
論文 参考訳(メタデータ) (2022-01-04T18:01:34Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。