論文の概要: Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis
- arxiv url: http://arxiv.org/abs/2212.01108v2
- Date: Tue, 18 Apr 2023 01:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 18:03:34.707634
- Title: Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis
- Title(参考訳): エッジ対応事前学習によるMR画像合成のためのマルチスケールトランスネットワーク
- Authors: Yonghao Li, Tao Zhou, Kelei He, Yi Zhou, Dinggang Shen
- Abstract要約: クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
- 参考スコア(独自算出の注目度): 52.41439725865149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modality magnetic resonance (MR) image synthesis can be used to
generate missing modalities from given ones. Existing (supervised learning)
methods often require a large number of paired multi-modal data to train an
effective synthesis model. However, it is often challenging to obtain
sufficient paired data for supervised training. In reality, we often have a
small number of paired data while a large number of unpaired data. To take
advantage of both paired and unpaired data, in this paper, we propose a
Multi-scale Transformer Network (MT-Net) with edge-aware pre-training for
cross-modality MR image synthesis. Specifically, an Edge-preserving Masked
AutoEncoder (Edge-MAE) is first pre-trained in a self-supervised manner to
simultaneously perform 1) image imputation for randomly masked patches in each
image and 2) whole edge map estimation, which effectively learns both
contextual and structural information. Besides, a novel patch-wise loss is
proposed to enhance the performance of Edge-MAE by treating different masked
patches differently according to the difficulties of their respective
imputations. Based on this proposed pre-training, in the subsequent fine-tuning
stage, a Dual-scale Selective Fusion (DSF) module is designed (in our MT-Net)
to synthesize missing-modality images by integrating multi-scale features
extracted from the encoder of the pre-trained Edge-MAE. Further, this
pre-trained encoder is also employed to extract high-level features from the
synthesized image and corresponding ground-truth image, which are required to
be similar (consistent) in the training. Experimental results show that our
MT-Net achieves comparable performance to the competing methods even using
$70\%$ of all available paired data. Our code will be publicly available at
https://github.com/lyhkevin/MT-Net.
- Abstract(参考訳): 磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多数のペアのマルチモーダルデータを必要とすることが多い。
しかし、教師付きトレーニングに十分なペアデータを得ることは、しばしば困難である。
実際、ペアデータの数は少ないが、ペアデータの数は少ないことが多い。
本稿では,2つのペアデータとアンペアデータの両方を活用するために,エッジ対応MR画像合成のためのマルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
具体的には、Edge保存型Masked AutoEncoder(Edge-MAE)を自己教師方式で事前訓練し、同時に実行する。
1)各画像にランダムにマスキングされたパッチに対する画像インプテーション
2)エッジマップ全体の推定はコンテキスト情報と構造情報の両方を効果的に学習する。
さらに,各対策の難しさに応じて異なるマスクパッチを別々に処理することにより,Edge-MAEの性能を向上させるパッチワイド・ロスを提案する。
提案した事前学習に基づいて、後続の微調整段階において、事前訓練したエッジ-MAEのエンコーダから抽出したマルチスケール特徴を統合することにより、欠損モード画像を合成するデュアルスケール選択融合(DSF)モジュールを設計(MT-Net)する。
さらに、この事前学習エンコーダを用いて、合成画像と、トレーニングにおいて類似(一貫性)を必要とする対応する接地構造画像から高レベル特徴を抽出する。
実験の結果, MT-Net は, 利用可能な全ペアデータに対して 70 % の費用を用いても, 競合する手法と同等の性能を発揮することがわかった。
私たちのコードはhttps://github.com/lyhkevin/mt-netで公開されます。
関連論文リスト
- Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - A Two-Stage Progressive Pre-training using Multi-Modal Contrastive Masked Autoencoders [5.069884983892437]
本稿では,RGB-Dデータセットを利用した画像理解タスクのプログレッシブ事前学習手法を提案する。
第一段階では、コントラスト学習を用いてモデルを事前学習し、クロスモーダル表現を学習する。
第2段階では、マスク付きオートエンコーディングと雑音予測を用いてモデルをさらに事前訓練する。
我々のアプローチはスケーラブルで堅牢で、RGB-Dデータセットを事前学習するのに適しています。
論文 参考訳(メタデータ) (2024-08-05T05:33:59Z) - E2TIMT: Efficient and Effective Modal Adapter for Text Image Machine
Translation [40.62692548291319]
テキスト画像機械翻訳(TIMT)は、画像に埋め込まれたテキストを、あるソース言語から別のターゲット言語に翻訳することを目的としている。
既存の手法では、2段階のカスケードと1段階のエンドツーエンドアーキテクチャの両方が異なる問題に悩まされている。
本稿では,既存のOCRおよびMTデータセットからの知識をフル活用したエンドツーエンドTIMTモデルを提案する。
論文 参考訳(メタデータ) (2023-05-09T04:25:52Z) - MDTv2: Masked Diffusion Transformer is a Strong Image Synthesizer [158.06850125920923]
拡散確率モデル(DPM)は、画像内の対象部分間の関係を学習する文脈推論能力に欠けることが多い。
画像中のオブジェクトの意味部分間の文脈的関係学習能力を高めるマスク潜在モデリング手法を提案する。
実験の結果、MDTv2は画像合成性能に優れており、例えば、新しいSOTA FIDスコアはImageNetデータセットで1.58であり、従来のSOTA DiTよりも10倍以上高速であることがわかった。
論文 参考訳(メタデータ) (2023-03-25T07:47:21Z) - CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - MultiMAE: Multi-modal Multi-task Masked Autoencoders [2.6763498831034043]
マルチモーダルマルチタスクマスケ自動エンコーダ(MultiMAE)と呼ばれる事前学習戦略を提案する。
我々は、この事前学習戦略が、ダウンストリームタスクへの転送結果を改善した、柔軟で、シンプルで、効率的なフレームワークに繋がることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:50:41Z) - Rethinking Coarse-to-Fine Approach in Single Image Deblurring [19.195704769925925]
マルチインプットマルチアウトプットU-netを用いた高速かつ高精度なデブロアリングネットワーク設計を提案する。
提案したネットワークは、精度と計算複雑性の両方の観点から最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-08-11T06:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。