論文の概要: SLMT-Net: A Self-supervised Learning based Multi-scale Transformer
Network for Cross-Modality MR Image Synthesis
- arxiv url: http://arxiv.org/abs/2212.01108v1
- Date: Fri, 2 Dec 2022 11:40:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 17:33:31.349596
- Title: SLMT-Net: A Self-supervised Learning based Multi-scale Transformer
Network for Cross-Modality MR Image Synthesis
- Title(参考訳): SLMT-Net:クロスモーダルMR画像合成のための自己教師付き学習ベースマルチスケールトランスネットワーク
- Authors: Yonghao Li, Tao Zhou, Kelei He, Yi Zhou, Dinggang Shen
- Abstract要約: 磁気共鳴(MR)画像合成は、既存の画像から欠落したモダリティを作り出すことを目的としている。
完全にペア化されたマルチモーダルトレーニングデータを大量に取得することは依然として困難である。
本稿では,多次元MR画像合成のための自己教師付き学習ベースマルチスケールトランスフォーマネットワーク(SLMT-Net)を提案する。
- 参考スコア(独自算出の注目度): 52.41439725865149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modality magnetic resonance (MR) image synthesis aims to produce
missing modalities from existing ones. Currently, several methods based on deep
neural networks have been developed using both source- and target-modalities in
a supervised learning manner. However, it remains challenging to obtain a large
amount of completely paired multi-modal training data, which inhibits the
effectiveness of existing methods. In this paper, we propose a novel
Self-supervised Learning-based Multi-scale Transformer Network (SLMT-Net) for
cross-modality MR image synthesis, consisting of two stages, \ie, a
pre-training stage and a fine-tuning stage. During the pre-training stage, we
propose an Edge-preserving Masked AutoEncoder (Edge-MAE), which preserves the
contextual and edge information by simultaneously conducting the image
reconstruction and the edge generation. Besides, a patch-wise loss is proposed
to treat the input patches differently regarding their reconstruction
difficulty, by measuring the difference between the reconstructed image and the
ground-truth. In this case, our Edge-MAE can fully leverage a large amount of
unpaired multi-modal data to learn effective feature representations. During
the fine-tuning stage, we present a Multi-scale Transformer U-Net (MT-UNet) to
synthesize the target-modality images, in which a Dual-scale Selective Fusion
(DSF) module is proposed to fully integrate multi-scale features extracted from
the encoder of the pre-trained Edge-MAE. Moreover, we use the pre-trained
encoder as a feature consistency module to measure the difference between
high-level features of the synthesized image and the ground truth one.
Experimental results show the effectiveness of the proposed SLMT-Net, and our
model can reliably synthesize high-quality images when the training set is
partially unpaired. Our code will be publicly available at
https://github.com/lyhkevin/SLMT-Net.
- Abstract(参考訳): 磁気共鳴(MR)画像合成は、既存の画像から欠落したモダリティを作り出すことを目的としている。
現在、深層ニューラルネットワークに基づくいくつかの手法が、教師付き学習方法でソースモダリティとターゲットモダリティの両方を用いて開発されている。
しかし,既存の手法の有効性を阻害する大量の完全ペアマルチモーダルトレーニングデータを得ることは依然として困難である。
本稿では,クロスモダリティmr画像合成のための自己教師あり学習型マルチスケールトランスフォーマーネットワーク (slmt-net) を提案する。
事前学習段階において,画像再構成とエッジ生成を同時に行うことにより,文脈情報とエッジ情報を保持するエッジ保存マスク自動エンコーダ(edge-mae)を提案する。
さらに、再構成画像と接地構造との差を計測することにより、その再構成難易度について入力パッチを別々に扱うパッチワイズロスを提案する。
この場合、Edge-MAEは大量の未ペアマルチモーダルデータをフル活用して効率的な特徴表現を学習できる。
微調整の段階では,マルチスケールトランスフォーマーU-Net(MT-UNet)を用いて目標モダリティ画像の合成を行い,DSFモジュールを用いて事前学習したEdge-MAEのエンコーダから抽出したマルチスケール機能を完全に統合する。
さらに,事前学習されたエンコーダを特徴整合性モジュールとして使用し,合成画像の高レベル特徴と基底真理との差を測定する。
実験結果は,slmt-netの有効性を示し,トレーニングセットが部分的に非ペア化されている場合,高品質な画像を確実に合成できることを示す。
私たちのコードはhttps://github.com/lyhkevin/SLMT-Net.comで公開されます。
関連論文リスト
- Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - A Two-Stage Progressive Pre-training using Multi-Modal Contrastive Masked Autoencoders [5.069884983892437]
本稿では,RGB-Dデータセットを利用した画像理解タスクのプログレッシブ事前学習手法を提案する。
第一段階では、コントラスト学習を用いてモデルを事前学習し、クロスモーダル表現を学習する。
第2段階では、マスク付きオートエンコーディングと雑音予測を用いてモデルをさらに事前訓練する。
我々のアプローチはスケーラブルで堅牢で、RGB-Dデータセットを事前学習するのに適しています。
論文 参考訳(メタデータ) (2024-08-05T05:33:59Z) - E2TIMT: Efficient and Effective Modal Adapter for Text Image Machine
Translation [40.62692548291319]
テキスト画像機械翻訳(TIMT)は、画像に埋め込まれたテキストを、あるソース言語から別のターゲット言語に翻訳することを目的としている。
既存の手法では、2段階のカスケードと1段階のエンドツーエンドアーキテクチャの両方が異なる問題に悩まされている。
本稿では,既存のOCRおよびMTデータセットからの知識をフル活用したエンドツーエンドTIMTモデルを提案する。
論文 参考訳(メタデータ) (2023-05-09T04:25:52Z) - MDTv2: Masked Diffusion Transformer is a Strong Image Synthesizer [158.06850125920923]
拡散確率モデル(DPM)は、画像内の対象部分間の関係を学習する文脈推論能力に欠けることが多い。
画像中のオブジェクトの意味部分間の文脈的関係学習能力を高めるマスク潜在モデリング手法を提案する。
実験の結果、MDTv2は画像合成性能に優れており、例えば、新しいSOTA FIDスコアはImageNetデータセットで1.58であり、従来のSOTA DiTよりも10倍以上高速であることがわかった。
論文 参考訳(メタデータ) (2023-03-25T07:47:21Z) - CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - MultiMAE: Multi-modal Multi-task Masked Autoencoders [2.6763498831034043]
マルチモーダルマルチタスクマスケ自動エンコーダ(MultiMAE)と呼ばれる事前学習戦略を提案する。
我々は、この事前学習戦略が、ダウンストリームタスクへの転送結果を改善した、柔軟で、シンプルで、効率的なフレームワークに繋がることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:50:41Z) - Rethinking Coarse-to-Fine Approach in Single Image Deblurring [19.195704769925925]
マルチインプットマルチアウトプットU-netを用いた高速かつ高精度なデブロアリングネットワーク設計を提案する。
提案したネットワークは、精度と計算複雑性の両方の観点から最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-08-11T06:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。