論文の概要、ライセンス

# (参考訳) TED-net: 畳み込みのないT2Tビジョン変換器を用いた低用量CT用エンコーダデコーダディレーションネットワーク [全文訳有]

TED-net: Convolution-free T2T Vision Transformer-based Encoder-decoder Dilation network for Low-dose CT Denoising ( http://arxiv.org/abs/2106.04650v1 )

ライセンス: CC BY 4.0
Dayang Wang, Zhan Wu, Hengyong Yu(参考訳) 低線量CTは臨床応用の主流である。 低線量CT (LDCT) 画像では, 通常の線量CTと比較して, より強いノイズやアーチファクトがあり, 実用上の障害となっている。 ここ数年、畳み込みに基づくエンドツーエンドのディープラーニング手法がLDCT画像の復調に広く利用されている。 近年, コンボリューション性能が向上し, 機能的相互作用が向上している。 しかし,LDCTの脱臭効果は十分には認められていない。 本稿では、畳み込みのないT2Tビジョン変換器をベースとしたエンコーダデコーダディレーションネットワーク(TED-net)を提案する。 モデルには畳み込みブロックがなく、対称エンコーダ・デコーダブロックと単独変換器で構成される。 本モデルは,aapm-mayoクリニックldctグランドチャレンジデータセットを用いて評価し,最先端のデノイジング法に対する性能評価を行った。

Low dose computed tomography is a mainstream for clinical applications. How-ever, compared to normal dose CT, in the low dose CT (LDCT) images, there are stronger noise and more artifacts which are obstacles for practical applications. In the last few years, convolution-based end-to-end deep learning methods have been widely used for LDCT image denoising. Recently, transformer has shown superior performance over convolution with more feature interactions. Yet its ap-plications in LDCT denoising have not been fully cultivated. Here, we propose a convolution-free T2T vision transformer-based Encoder-decoder Dilation net-work (TED-net) to enrich the family of LDCT denoising algorithms. The model is free of convolution blocks and consists of a symmetric encoder-decoder block with sole transformer. Our model is evaluated on the AAPM-Mayo clinic LDCT Grand Challenge dataset, and results show outperformance over the state-of-the-art denoising methods.
公開日: Tue, 8 Jun 2021 19:26:55 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
TED-net: Convolution-free T2T Vision Transformerbased Encoder-decoder Dilation network for Low-dose TED-net:低線量用畳み込みフリーT2Tビジョン変換器を用いたエンコーダデコーダディレーションネットワーク 0.62
CT Denoising Dayang Wang1, Zhan Wu1, Hengyong Yu1,* CTデノイング 陽王1、張武1、遍慶湯1、* 0.55
Department of Electrical and Computer Engineering, University of Massachusetts Lowell, マサチューセッツ・ローウェル大学電気・計算機工学科 0.50
*. Corresponding author, email: Hengyong-yu@ieee.org *. 著者、メール: Hengyong-yu@ieee.org 0.78
Lowell, MA, USA. ローウェル、アメリカ、MA。 0.57
Abstract. Low dose computed tomography is a mainstream for clinical applications. 抽象。 低線量CTは臨床応用の主流である。 0.63
However, compared to normal dose CT, in the low dose CT (LDCT) images, there are stronger noise and more artifacts which are obstacles for practical applications. しかし,低線量CT(LDCT)画像では,低線量CT(LDCT)画像に比べて強いノイズやアーチファクトがあり,実用上の障害となっている。 0.78
In the last few years, convolution-based end-to-end deep learning methods have been widely used for LDCT image denoising. ここ数年、畳み込みに基づくエンドツーエンドのディープラーニング手法がLDCT画像の復調に広く利用されている。 0.62
Recently, transformer has shown superior performance over convolution with more feature interactions. 近年, コンボリューション性能が向上し, 機能的相互作用が向上している。 0.57
Yet its applications in LDCT denoising have not been fully cultivated. しかし、LDCTにおけるその応用は、完全には栽培されていない。 0.48
Here, we propose a convolution-free T2T vision transformer-based Encoder-decoder Dilation network (TED-net) to enrich the family of LDCT denoising algorithms. 本稿では,畳み込みのないT2Tビジョン変換器を用いたエンコーダデコーダダイレレーションネットワーク(TED-net)を提案する。 0.63
The model is free of convolution blocks and consists of a symmetric encoder-decoder block with sole transformer. モデルには畳み込みブロックがなく、対称エンコーダ・デコーダブロックと単独変換器で構成される。 0.75
Our model is evaluated on the AAPM-Mayo clinic LDCT Grand Challenge dataset, and results show outperformance over the state-of-the-art denoising methods. 本モデルは,aapm-mayoクリニックldctグランドチャレンジデータセットを用いて評価し,最先端のデノイジング法に対する性能評価を行った。 0.64
Keywords: Low-dose CT, transformer, encoder decoder, dilation. キーワード:低用量CT、トランスフォーマー、エンコーダデコーダ、ダイレーション。 0.72
1 Introduction In recent years, low dose computed tomography (LDCT) has become the mainstream in the clinical applications of medical imaging. 1 はじめに 近年,低線量CT(LDCT)が臨床応用の主流となっている。 0.63
However, the low quality of LDCT image has always been a barrier since it compromises the diagnosis value. しかし,LDCT画像の低品質化は診断値を損なうため,常に障壁となっている。 0.90
To overcome this issue, traditional methods (e g iterative methods) manage to suppress the artifact and noise by using the physical model and/or prior information. この問題を解決するために、従来の手法(例えば反復法)は、物理モデルや/または事前情報を用いて、アーチファクトとノイズを抑える。 0.68
For example, Compressive Sensing (CS) has been widely used for ill-posed inverse problems by learning sparse representations [1], and the representative total variation (TV)-based models assume that the clean image is piecewise constant and its gradient transform is sparse [25]. 例えば、圧縮センシング(cs)はスパース表現(sparse representations)を学習することで逆問題に広く用いられており、代表的全変動(tv)ベースのモデルは、クリーン画像が区分的に定数であり、勾配変換がスパース[25]であると仮定している。 0.76
Xu et al combined dictionary learning and statistic IR (SIR) [6] for LDCT denoising. Xu et al combined dictionary learning and statistic IR (SIR) [6] for LDCT denoising。 0.78
Tan et al proposed a tensor-based dictionary learning model for spectral and dynamic CT [7]. Tanらはスペクトルおよび動的CTのためのテンソルベース辞書学習モデルを提案した[7]。 0.76
Ma et al designed a Non-Local Mean (NLM) method to utilize the redundancy maとalは冗長性を利用する非局所平均法(nlm)を設計した 0.67
英語(論文から抽出)日本語訳スコア
2 of information across the whole image rather than local operations on neighboring image voxels [8]. 2 隣り合う画像ボクセルのローカル操作ではなく、画像全体の情報について [8]。 0.75
Nonetheless, none of these algorithms is adopted in commercial scanners because of the hardware limitations and high computational cost [9]. それでもこれらのアルゴリズムは、ハードウェアの制限と高い計算コストのため、商用スキャナーでは採用されていない [9]。 0.70
In last few years, deep learning-based methods attracted more attention for CT denoising and achieved the state-of-the-art performance [10]. 近年, 深層学習に基づく手法がCTの難読化に注目され, 最先端のパフォーマンスを実現した[10]。 0.75
Chen et al combined the auto-encoder, deconvolution network, and shortcut connections into a residual encoderdecoder convolution neural network (CNN) for CT imaging [11]. Chenらは、オートエンコーダ、デコンボリューションネットワーク、ショートカット接続をCTイメージングのための残留エンコーダデコーダ畳み込みニューラルネットワーク(CNN)に結合した[11]。 0.79
Yang et al used WGAN-VGG in the denoising base network and adopted perceptual loss to evaluate the reconstructed image quality [12]. ヤンらは,WGAN-VGGをデノナイジングベースネットワークで使用し,再構成画像の品質評価に知覚的損失を適用した[12]。 0.78
Fan et al constructed a quadratic neuron-based autoencoder with more robustness and utility for model efficiency in contradiction of other CT denoising methods [13]. fan et alは二次ニューロンベースのオートエンコーダを構築し、より頑健で、他のctデノイジング法と矛盾するモデル効率に有用であった [13]。 0.54
However, these convolution-based methods has limited ability to capture contextual information with long spatial dependence in image or feature maps. しかし、これらの畳み込みに基づく手法は、画像や特徴マップに長い空間依存を持つ文脈情報をキャプチャする能力に制限がある。 0.60
Very recently, transformer [14] has gradually become the dominant method in the natural language processing (NLP) [15-18] and computer vision (CV) fields [19-31]. 近年,変換器 [14] は自然言語処理 (NLP) [15-18] とコンピュータビジョン (CV) フィールド [19-31] において,徐々に支配的な手法になりつつある。 0.83
Transformer has achieved a great performance in high level tasks, such as classification, object detection, image segmentation, etc. Transformerは、分類、オブジェクト検出、画像のセグメンテーションなど、ハイレベルなタスクで優れたパフォーマンスを実現している。 0.78
Dosovitskiy et al first proposed vision transformer (ViT) in the CV field by mapping an image into 16×16 sequence words [23]. Dosovitskiyらは、イメージを16×16のシーケンスワード[23]にマッピングすることで、CVフィールドに視覚変換器(ViT)を最初に提案した。
訳抜け防止モード: DosovitskiyらによるCVフィールドにおける視覚変換器(ViT)の提案 画像を16×16のシーケンスワードにマッピングします [23 ]
0.82
To overcome the simple tokenization in ViT, Yuan et al further proposed a Token-toToken method to enrich the tokenization process [29]. vitの単純なトークン化を克服するために、元らはさらにトークン化プロセスを充実させるトークンtotoken法を提案した [29]。 0.58
Moreover, Liu et al designed a swin transformer to include patch fusion and cyclic shift to enlarge the perception of contextual information in tokens [27]. さらに、liuらは、トークン[27]の文脈情報の知覚を拡大するためにパッチフュージョンとサイクリックシフトを含むスウィントランスを設計した。 0.65
Researches also explored the transformer for low vision task [21, 24, 25]. 研究は低視野タスク [21, 24, 25]用のトランスフォーマーについても研究した。 0.70
However, transformer in LDCT denoising has not been well explored. しかし,LDCTの変圧器は十分に探索されていない。 0.65
Zhang et al designed a TransCT-net to utilize transformer in the high frequency (HF) and low frequency (LF) composite inference [32]. ZhangらはTransCT-netを設計し、高周波(HF)および低周波(LF)複合推論[32]で変換器を利用する。 0.81
Nevertheless, Zhang’s work includes a lot of convolutions in the HF/LF tokenization and Piecewise Reconstruction module. それでもZhangの仕事には、HF/LFトークン化とPiecewise Restructationモジュールにおける多くの畳み込みが含まれている。 0.54
So far, there is no convolution-free model for LDCT denoising. これまでのところ、LDCTの畳み込みフリーモデルはありません。 0.60
In this paper, for the first time, we propose a convolution-free Transformer Encoder-decoder Dilation (TED-net) model and evaluate its performance compared with other state-of-the-art models. 本稿では,畳み込みのないトランスフォーマー・エンコーダ・デコーダ・ディレーション(TED-net)モデルを提案し,その性能を他の最先端モデルと比較して評価する。 0.75
The rest of this paper is organized as follows. 本論文の残りは以下のとおり整理される。 0.76
Part II introduces the key methods used in our proposed model. 第2部では,提案するモデルにおける鍵となる手法を紹介する。 0.59
Part III reports the experiment details and results. 第3部は実験の詳細と結果を報告する。 0.63
Part IV discusses some related issues and make a conclusion. 第4部は関連する問題について論じ、結論を下す。 0.54
2 Methods In this paper, we propose a convolution-free T2T vision transformer-based Encoderdecoder Dilation network (TED-net). 2つの方法 本稿では、畳み込みのないT2Tビジョントランスをベースとしたエンコーダデコーダダイレレーションネットワーク(TED-net)を提案する。 0.63
As shown in Fig 1, in the encode part, the model includes Tokenization block, Transformer Block (TB), Cyclic Shift Block (CSB), Token-to-Token block with Dilation (T2TD) and without dilation (T2T). 図1に示すように、符号化部では、トケライズブロック、トランスフォーマーブロック(TB)、サイクリックシフトブロック(CSB)、ディレーション付き(T2TD)、ディレーションなし(T2T)を含む。 0.70
The decoder part includes T2T, T2TD, Inverse Cyclic Shift Block (ICSB) and Detokenization Block. デコーダ部は、T2T、T2TD、逆サイクルシフトブロック(ICSB)、デトケナイズブロックを含む。 0.79
英語(論文から抽出)日本語訳スコア
3 Fig. 1. 3 フィギュア。 1. 0.71
The pipeline of our proposed TED-net. 提案したTED-netのパイプライン。 0.68
Tokenize block uses unfold to extract tokens from image patches while DeToken block applies Fold to convert tokens back to image. TokenizeブロックはUnfoldを使ってイメージパッチからトークンを抽出し、DeTokenブロックはFoldを使ってトークンをイメージに変換する。 0.70
TB includes a typical transformer block. TBは典型的な変圧器ブロックを含む。 0.65
CSB uses cyclic shift operation and ICSB employs inverse cyclic shift. CSBは循環シフト演算を使用し、ICSBは逆循環シフトを用いる。 0.69
T2T incorporates Token-to-Token block to enhance tokenization while T2TD includes Dilation in the T2T tokenization process. T2Tはトークン化を促進するためにToken-to-Tokenブロックを組み込み、T2TDはT2Tトークン化プロセスにDilationを含む。
訳抜け防止モード: T2 TはToken - to - Tokenブロックを組み込む T2TDはT2Tトークン化プロセスにDilationを含む。
0.66
The final image is obtained by subtracting the model residual output from the noisy input image. ノイズ入力画像からモデル残差出力を減算して最終画像を得る。 0.63
2.1 Noise Model The LDCT denoising task attempts to recover a clean NDCT image 2.1 騒音モデル LDCT復調タスクによるクリーンNDCT画像の復元の試み 0.74
from a by using a general denoising model 一般的な推論モデルを使って 0.57
matching noise LDCT image LDCT画像のマッチング 0.72
, and the Mean-Square Error (MSE) loss is defined as follows: 平均二乗誤差(MSE)損失は次のように定義される。 0.77
. (1) In this paper, we propose a Transformer-based model . (1) 本稿では,変圧器に基づくモデルを提案する。 0.79
to learn the deep features and capture the noise pattern of the image. 深い特徴を学習し、画像のノイズパターンをキャプチャする。 0.66
Then we recover the clean image by combining both the output residual image and the original noisy image. そして、出力残像と元のノイズ画像とを組み合わせることにより、クリーン画像の復元を行う。 0.76
. (2) 2.2 Transformer Block . (2) 2.2 Transformer ブロック 0.82
In the Transformer Block (TB), we utilize a traditional transformer in the encoder and decoder stage between two T2T blocks which contain Multiple head Self-Attention Transformer Block (TB)では、エンコーダとデコーダの2つのT2Tブロック間において、複数のヘッド自己保持を含む従来のトランスフォーマーを利用する。 0.73
NNyNNx:NNNND()MSEDargminLDxy:NNNNT()yTxxTokenizeTBT2TDTBT2TD eTokenTBTBT2TDTBT2T5 12 × 51264 × 64CSBCSBICSBICSB TTT2TDeTokenTBTBT2TD TBT2TDTBT2T512 × 51264 × 64CSBCSbiCSbiCSbiCSB 0.58
英語(論文から抽出)日本語訳スコア
4 (MSA), Multiple Layer Perceptron (MLP) and residual connection to promote the expressive power of this module. 4 (MSA)、Multiple Layer Perceptron(MLP)、および余剰接続により、このモジュールの表現力を促進する。 0.83
The output of TB has the same size as the TBの出力は、同じサイズです。 0.60
. Here input tokens token embedding dimension. . ここでトークンの埋め込み次元を入力します。 0.70
is batch size, is the number of tokens, and バッチサイズです。 トークンの数と 0.44
is the . (3) Fig. それは . (3) フィギュア。 0.69
2. The architecture of T2TD block which includes reshape and unfold with dilation. 2. T2TDブロックのアーキテクチャは、再形成と拡張による展開を含む。 0.75
2.3 Token-to-token Dilation Block 2.3token-token拡張ブロック 0.52
Token-to-Token (T2T) block is recently utilized to overcome the simple tokenization Token-to-Token(T2T)ブロックは、最近、単純なトークン化を克服するために利用されている。 0.43
of image in vision transformer. 視覚変換器のイメージです 0.60
Traditional tokenization only includes one tokenization 伝統的なトークン化は1つのトークン化のみを含む 0.40
process using either reshape or convolution, while the T2T block adopts a cascade to- T2Tブロックがカスケードトゥーを採用する間、リフォームまたは畳み込みを使用するプロセス 0.70
kenization procedure. ケニゼーションの手続きだ 0.63
We further use dilation in the tokenization process to refine the 私たちはさらにトークン化プロセスで希釈を使って精製します 0.60
contextual information fusion and seek relation across larger regions. 文脈情報融合と 広い地域をまたがる関係を探る 0.77
Fig 2 illustrates the structure of T2TD block which consists of reshape and soft split with dilation. fig 2が示す t2tdブロックの構造は、リフォームとソフトスプリットと拡張からなる。 0.75
Reshape. Given tokens 形を変えろ トークンの付与 0.55
from last stage, they are first transposed to 最後の段階から 最初は 0.45
and then reshaped into . その後 形を変えて . 0.74
. (4) and where tively. . (4) そして 熱心に 0.66
Soft Split with Dilation. ソフトスプリットとディレーション。 0.53
With the feature maps from the reshape stage, the soft split stage will retokenize the reshaped feature map using unfold operation. 再構成段階からの特徴写像により、ソフトスプリット段階は展開操作を用いて再構成された特徴写像を再起動する。 0.55
In this stage the are the channel, height and width of feature map, respec- この段階では 特徴マップのチャネル、高さ、幅、再仕様- 0.75
'bndTbndTbnd'MLP(MSA())TTbndTTbdnTbchwIReshape()ITcdhwnTransformerTransform er TiTi+1ReshapeUnfold with dilationTokens to Tokens block bndT-bndT-bnd'MLP(MSA())TT-bndT-bd nT-bchwI-Reshape()IT -cd-hwn'Transformer TiTi+1ReshapeUnfold with dilationTokens to Tokens block 0.47
英語(論文から抽出)日本語訳スコア
5 four dimension feature maps are converted back to three dimensional to- 5 4次元特徴写像 3次元のtoに変換されます 0.73
kens . Through this operation, the number of tokens are reduced by combining several neighboring tokens into one unit though the embedding dimension is increased accordingly with several tokens concatenated together. ケンズ この操作により、複数の隣接するトークンを1つの単位に組み合わせることでトークンの数が減少するが、埋め込み次元は複数のトークンが結合して増加する。 0.52
. (5) As demonstrated in Fig 2, dilation is also used in the unfold process to capture the contextual information with longer dependence. . (5) 図2で示されるように、拡張は拡張過程において、より長い依存で文脈情報をキャプチャするためにも用いられる。 0.76
After the soft split with dilation, the 軟らかい裂け目と拡張の後に 0.48
input feature maps the total number of tokens 入力特徴はトークンの総数をマップする 0.82
become where after the soft split operation is calculated as: なる どこに ソフトスプリット操作が計算された後 0.60
where . are related parameters in the Unfold operation. どこに . Unfold 操作の関連するパラメータです。 0.73
and (6) Cyclic Shift. そして (6) サイクルシフト。 0.74
After the reshape process in the encoder network, we employ the cyclicshift to modify the shaped feature map. エンコーダネットワークにおける再形プロセスの後、形状特徴マップを変更するためにサイクリックシフトを用いる。 0.78
The pixel values in the feature map are assembled in a different way that will add more information integration in the model. フィーチャーマップのピクセル値は、モデルにさらなる情報統合を追加する別の方法で組み立てられます。 0.63
Then, an inverse cyclic shift is performed in the symmetric decoder network to avoid any pixel shifts in the final denoising results. そして、対称デコーダネットワークにおいて逆巡回シフトを行い、最終的なデノージング結果の画素シフトを回避する。 0.64
Fig 3 exhibits the cyclic shift module and inverse cyclic shift module. 図3は巡回シフトモジュールと逆循環シフトモジュールを示す。 0.75
. (7) Fig. . (7) フィギュア。 0.71
3. The structures of Cyclic Shift and Inverse Cyclic Shift operations to enrich the tokenization process by fusion different kernel area. 3. 異なるカーネル領域を融合させることでトークン化プロセスを強化するためのサイクルシフトと逆サイクルシフト演算の構造。 0.80
3 Experiments and Results In this part, the data preparation, experiment settings and comparison results are presented. 3 実験と結果 ここでは、データ準備、実験設定、比較結果を示す。 0.75
Our model is trained and evaluated on a public dataset, and the results show that our model outperforms other state-of-the-art models. 我々のモデルは、公開データセット上でトレーニングされ、評価され、その結果、我々のモデルは、他の最先端モデルよりも優れています。 0.52
bchwI''''bndT''SoftSplit()TIbchwI'''''''bndT''dckernel''n(1)1''1hdilationkernelnStr ide,,anddilationkernels tride'CyclicShift()IICyclic ShiftInverseCyclic Shift64 × 64 bchw1'''''bndT'''''SoftSplit()TI'bchwI'''''''bndT'''dckernel'''n(1)1'''1hdilationkernelnStr ide',anddilationkernelst ride'CyclicShift()II' ;Cyclic Shift InverseCyclic Shift64 × 64 0.86
英語(論文から抽出)日本語訳スコア
6 Dataset A publicly released dataset from 2016 NIH-AAPM-Mayo Clinic LDCT Grand Challenge is used for model training and testing. 6 Dataset 2016 NIH-AAPM-Mayo Clinical LDCT Grand Challengeから公開されたデータセットは、モデルトレーニングとテストに使用されている。 0.74
We employ the patient L506 data for evaluation and the other nine patients for model training. 評価には患者l506データ、モデルトレーニングには患者9名を用いた。 0.74
The pairs of quarter-dose LDCT and normal-dose CT (NDCT) images are used to train the model. モデルのトレーニングには,4分の1のLDCTとNDCT(Normal-Dose CT)画像が使用される。 0.71
We randomly extract 4 image patches of 64×64 from each original image of size 512×512 in every epoch. それぞれのエポックで512×512の原画像から64×64の4つの画像パッチをランダムに抽出する。 0.65
Data augmentation is also applied to enlarge the dataset where we keep a copy of original image and then randomly apply image rotation (90 degrees, 180 degrees or 270 degrees) and flipping (up and down, left and right) to the original one. データ拡張はまた、元の画像のコピーを保持し、ランダムに画像回転(90度、180度、または270度)し、元の画像に(上下左右)反転するデータセットを拡大するためにも適用されます。 0.74
Experiment Settings The experiments are running on Ubuntu 18.04.5 LTS, with Intel(R) Core (TM) i99920X CPU @ 3.50GHz using PyTorch 1.5.0 and CUDA 10.2.0. 実験設定 実験はUbuntu 18.04.5 LTSで動作し、PyTorch 1.5.0とCUDA 10.2.0を使用したIntel(R) Core (TM) i99920X CPU @ 3.50GHzである。 0.61
The models are trained with 2 NVIDIA 2080TI 11G GPUs. モデルは2つのNVIDIA 2080TI 11G GPUでトレーニングされている。 0.66
Here are the details of our experiment setting: in the encoder block, our model consists of three soft split stages, two transformer layers, and two cyclic shift layers, while in the decoder block it includes three inverse soft split stages with fold operations, two transformer blocks and two corresponding inverse cyclic shift operations. エンコーダブロックでは、3つのソフトスプリットステージ、2つのトランス層、2つのサイクリックシフト層で構成され、デコーダブロックでは折り畳み操作を含む3つの逆ソフトスプリットステージ、2つのトランスフォーマーブロック、2つの対応する逆サイクリックシフト操作を含む。 0.71
One additional transformer layer is between the encoder and decoder parts to further incorporate more feature inference. さらなるトランスフォーマー層はエンコーダとデコーダの間のもので、さらなる機能推論が組み込まれている。 0.66
The kernel size for the three unfold/fold operations are 7×7, 3×3, 3×3 with a stride of (2,1,1) and a dilation of (1,2,1), respectively. 3つのunfold/fold演算のカーネルサイズは 7×7, 3×3, 3×3 で、ストライドは (2,1,1)、拡張は (1,2,1) である。 0.63
Moreover, the token dimension in the encoder/decoder part is 256, and pixel quantity is 2 for the two cyclic shift layers. また、エンコーダ/デコーダ部のトークン寸法は256であり、2つの循環シフト層に対して画素量2である。 0.81
We use a patch number of 4 for パッチ番号は4です。 0.39
Fig. 4. The denoising results of different networks on L506 with lesion No.575. フィギュア。 4. 病変No.575を有するL506の異なるネットワークの認知結果。 0.66
The display window is [-160, 240] HU. 表示ウィンドウは[-160,240]HUである。 0.71
(b)-(f) are from RED-CNN, WGAN-VGG, MAP-NN, AD-NET and our proposed TED-net, respectively. b)-(f) はそれぞれRED-CNN, WGAN-VGG, MAP-NN, AD-NET, 提案したTED-netのものである。 0.72
(a) and (g) are LDCT and NDCT images. (a)および(g)はLDCTおよびNDCT画像である。 0.87
(g) NDCT(a) LDCT(b) RED-CNN(c) WGAN-VGG(d) MAP-NN(f) TED-net(e) AD-NET (g)NDCT(a)LDCT(b)RED -CNN(c)WGAN-VGG(d)MA P-NN(f)TED-net(e)AD- NET 0.84
英語(論文から抽出)日本語訳スコア
7 Fig. 5. 7 フィギュア。 5. 0.71
The amplified ROIs of different network outputs in the rectangle marked in Fig 4. fig4にマークされた長方形の異なるネットワーク出力の増幅rois。 0.75
Fig. 6. The performance of TED-net on case L506 with lesion No. フィギュア。 6. L506症例におけるTED-netの成績は, 病変No。 0.63
576 and complementary magnified RIOs. 576と補足的なリオス 0.54
training and the epochs are 4000. トレーニングとエポックは4000です。 0.58
Adam is adopted to minimize the MSE loss with an initial learning rate of 1e-5. adamは初期学習率1e-5でmse損失を最小限に抑えるために採用されている。 0.61
In the evaluation stage, we segment the 512×512 image into overlapped 64×64 patches, and only crop out the center part of the model output to aggregate to the final whole predictions to overcome the boundary artifacts. 評価段階では、512×512の画像を64×64の重なり合うパッチに分割し、モデル出力の中央部分のみを抽出し、最終的な予測結果に集約し、境界アーティファクトを克服する。 0.75
(a) LDCT(b) RED-CNN(c) WGAN-VGG(d) MAP-NN(g) NDCT(f) TED-net(e) AD-Net(c) NDCT(b) TED-net(a) LDCT(d) LDCT(f) NDCT(e) TED-net (a)LDCT(b)RED-CNN(c) WGAN-VGG(d)MAP-NN(g) NDCT(f)TED-net(e)AD- Net(c)NDCT(b)TED-net (a)LDCT(f)NDCT(e)TED -net 0.93
英語(論文から抽出)日本語訳スコア
8 Comparison results SSIM and RMSE are adopted to quantitatively measure the quality of the denoised image. 8 画像の品質を定量的に測定するために、SSIMとRMSEを比較した。 0.76
Our model is compared with state-of-the-art baseline algorithms: RED-CNN [11], WGAN-VGG [12], MAP-NN [33], and AD-NET [34]. 我々のモデルは、RED-CNN [11]、WGAN-VGG [12]、MAP-NN [33]、AD-NET [34]といった最先端のベースラインアルゴリズムと比較される。 0.66
RED-CNN, MAP-NN, and WGAN-VGG are popular low dose CT denoising models while AD-NET has high performance on gray image denoising. RED-CNN、MAP-NN、WGAN-VGGは低線量CTデノナイジングモデルとして人気があり、AD-NETはグレー画像デノナイジングに高い性能を持つ。 0.52
We retrain AD-NET on AAPM dataset with the same setting as other methods and obtain a comparison result. 我々は、AAPMデータセット上のAD-NETを他の手法と同じ設定で再訓練し、比較結果を得る。 0.61
Fig 4 shows the results of different networks on L506 with lesion No.575. fig 4 は l506 上の病変 no.575 の異なるネットワークの結果を示している。 0.68
Fig 5 demonstrates the amplified ROIs from the rectangular area marked in Fig 4. 図5は、図4に示す矩形領域からの増幅ROIを示す。 0.79
Fig 6 illustrates the performance of our TED-net on lesion No.576. 576号病変に対するTED-netの効果を図6に示す。 0.70
Fig 4, Fig 5 and Fig 6 show that our TED-net has a better performance in removing the noise/artifact and maintaining high-level spatial smoothness while keeping the details of the target image. 図4, 図5, 図6により, TED-netは, 対象画像の詳細を維持しつつ, ノイズ・アーティファクトを除去し, 高レベルの空間的滑らかさを維持する上で, 優れた性能を示した。 0.62
However, other methods have more blotchy noisy textures. しかし、他の手法ではノイズの多いテクスチャが多い。 0.64
Additionally, quantitative results from Table 1 also confirm that our model outperforms other models. さらに、テーブル1の定量的結果は、我々のモデルが他のモデルより優れていることも確認します。 0.54
Table 1. Quantitative results of different methods on L506 表1。 L506の異なる方法の定量化 0.77
Method LDCT RED-CNN LDCT法 RED-CNN 0.66
WGAN-VGG MAP-NN WGAN-VGG MAP-NN 0.59
AD-NET TED-net* AD-NET TED-net* 0.65
SSIM 0.8759 SSIM 0.8759 0.71
0.8952 0.9008 0.8952 0.9008 0.59
0.8941 0.9041 0.8941 0.9041 0.59
0.9144 RMSE 14.2416 0.9144 RMSE 14.2416 0.65
11.5926 11.6370 11.5926 11.6370 0.59
11.5848 9.7166 11.5848 9.7166 0.59
8.7681 4 Conclusion 8.7681 4 結論 0.69
In this paper, a novel pure transformer-based convolution-free LDCT denoising algorithm is developed for clinical applications. 本稿では, 新規な純変圧器型畳み込みフリーldctデノイジングアルゴリズムを臨床応用するために開発した。 0.72
In contrast, the most state-of-art models are based on CNN. 対照的に、最先端のモデルはCNNに基づいている。 0.63
To the best of our knowledge, this is the first research to apply pure transformer for LDCT denoising. 我々の知る限りでは、LDCT復調に純粋なトランスフォーマーを適用した最初の研究である。 0.63
Our contributions are mainly three-folds: (1) A convolution-free U-net like T2T-vit-based denoising transformer model is developed. 1) T2T-vit-based denoising transformerモデルのような畳み込みのないU-netを開発した。 0.60
(2) The dilation is used in the T2T stage to enlarge the receptive field to obtain more contextual information from the feature-maps. 2) ディレーションは,T2Tの段階で受容領域を拡大し,特徴写像からよりコンテキスト情報を得るために使用される。 0.75
(3) A cyclic shift is used to furthermore refine the mode of image tokenization. (3) 画像トークン化のモードをさらに洗練するために、循環シフトを用いる。 0.81
Experimental results show our model outperforms other state-of-the-art models with the highest SSIM value and smallest RMSE value. 実験の結果,SSIM値が最も高く,RMSE値が最小である他の最先端モデルよりも優れていた。 0.61
In the future, this model can be further slimmed with a more powerful tokenization without downgrading of images. 将来的には、画像の劣化なしにより強力なトークン化によって、このモデルをさらにスリム化することができる。 0.56
英語(論文から抽出)日本語訳スコア
9 References 1. 2. 9 第1回参照。 2. 0.71
3. 4. 5. 6. 3. 4. 5. 6. 0.85
7. 8. 9. 10. 7. 8. 9. 10. 0.85
11. 12. 13. 11. 12. 13. 0.85
14. 15. 16. 14. 15. 16. 0.85
17. 18. Yu, H. and G. Wang, Compressed sensing based interior tomography. 17. 18. Yu, H. and G. Wang, Compressed sensor based inside tomography 0.83
Physics in medicine & biology, 2009. 物理学、医学、生物学、2009年。 0.66
54(9): p. 2791. 54(9)p.2791。 0.71
Liu, Y., et al , Adaptive-weighted total variation minimization for sparse data toward low-dose x-ray computed tomography image reconstruction. Liu, Y., et al , Adaptive-weighted total variation minimization for sparse data to low-dose x-ray Computed tomography image reconstruction 0.92
Physics in Medicine & Biology, 2012. 物理学、医学、生物学、2012年。 0.70
57(23): p. 7923. 57(23):p.7923。 0.75
Zhang, Y., et al , Few-view image reconstruction with fractional-order total variation. Zhang, Y., et al , Few-view Image reconstruction with fractional-order total variation。 0.88
JOSA A, 2014. 2014年、JESA。 0.62
31(5): p. 981-995. 31(5):p.981-995。 0.79
Sidky, E.Y. Sidky, E.Y。 0.80
and X. Pan, Image reconstruction in circular cone-beam computed tomography by constrained, total-variation minimization. X. Pan, Image reconstruction in circular cone-beam Computed Tomography by constrained, total-variation minimization。 0.83
Physics in Medicine & Biology, 2008. 医学・生物学研究科、2008年。 0.63
53(17): p. 4777. 53(17):p.4777。 0.89
Tian, Z., et al., Low-dose CT reconstruction via edge-preserving total variation regularization. Tian, Z., et al., Low-Dose CT reconstruction by edge-serving total variation regularization。 0.84
Physics in Medicine & Biology, 2011. 物理学・医学・生物学』2011年。 0.75
56(18): p. 5949. 56(18):p.5949。 0.83
Xu, Q., et al., Low-dose X-ray CT reconstruction via dictionary learning. xu, q., et al., low-dose x-ray ct reconstruction via dictionary learning 0.81
IEEE transactions on medical imaging, 2012. ieee transactions on medical imaging、2012年。 0.64
31(9): p. 1682-1697. 31(9)p.1682-1697。 0.85
Tan, S., et al., Tensor-based dictionary learning for dynamic tomographic reconstruction. Tan, S., et al., Tensor-based dictionary learning for dynamic tomography reconstruction 0.83
Physics in Medicine & Biology, 2015. 2015年、医学・生物学博士。 0.70
60(7): p. 2803. 60(7):p.2803。 0.87
Ma, J., et al., Low‐dose computed tomography image restoration using previous normal‐dose scan. Ma, J., et al., Low-dose Computed tomography Image restoration using previous normal-dose scan。 0.86
Medical physics, 2011. 2011年、医学博士。 0.72
38(10): p. 5713-5731. 38(10)p. 5713-5731。 0.86
Yin, X., et al., Domain progressive 3D residual convolution network to improve low-dose CT imaging. Yin, X., et al., Domain Progress 3D residual convolution network to improve Low-Dose CT imaging。 0.87
IEEE transactions on medical imaging, 2019. IEEEによる医療画像の取引、2019年。 0.73
38(12): p. 2903-2913. 38(12)p.2903-2913。 0.84
LeCun, Y., Y. Bengio, and G. Hinton, Deep learning. LeCun, Y., Y. Bengio, G. Hinton, Deep Learning 0.80
nature, 2015. 521(7553): p. 436-444. 自然、2015年。 521(7553):p. 436-444。 0.75
Chen, H., et al , Low-dose CT with a residual encoder-decoder convolutional neural network. Chen, H., et al , Low-Dose CT with a residual encoder-decoder convolutional neural network。 0.85
IEEE transactions on medical imaging, 2017. ieee transactions on medical imaging、2017年。 0.69
36(12): p. 25242535. 36(12):p.25242535。 0.87
Yang, Q., et al , Low-dose CT image denoising using a generative adversarial network with Wasserstein distance and perceptual loss. Yang, Q., et al , Low-Dose CT Image denoising using a generative adversarial network with Wasserstein distance and perceptual loss。 0.84
IEEE transactions on medical imaging, 2018. IEEEによる医療画像の取引、2018年。 0.73
37(6): p. 1348-1357. 37(6):p.1348-1357。 0.76
Fan, F., et al., Quadratic autoencoder (Q-AE) for low-dose CT denoising. Fan, F., et al., Quadratic autoencoder (Q-AE) for Low-Dose CT denoising。 0.85
IEEE transactions on medical imaging, 2019. IEEEによる医療画像の取引、2019年。 0.73
39(6): p. 2035-2050. 39(6):p.2035-2050。 0.77
Vaswani, A., et al , Attention is all you need. Vaswani, A., et al , Attention は必要なすべてです。 0.83
arXiv preprint arXiv:1706.03762, 2017. arXiv preprint arXiv:1706.03762, 2017 0.79
Devlin, J., et al., Bert: Pre-training of deep bidirectional transformers for language understanding. Devlin, J., et al., Bert: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.87
arXiv preprint arXiv:1810.04805, 2018. arXiv preprint arXiv:1810.04805, 2018 0.79
Xin, J., et al , Deebert: Dynamic early exiting for accelerating bert inference. Xin, J., et al , Deebert: bert推論を加速するための動的早期終了。 0.85
arXiv preprint arXiv:2004.12993, 2020. arXiv preprint arXiv:2004.12993, 2020 0.81
Zhang, Y., et al., Dialogpt: Large-scale generative pre-training for conversational response generation. Zhang, Y., et al., Dialogpt: 対話応答生成のための大規模生成前トレーニング。 0.82
arXiv preprint arXiv:1911.00536, 2019. arXiv preprint arXiv:1911.00536, 2019 0.81
Brown, T.B., et al., Language models are few-shot learners. Brown, T.B., et al., Language model are few-shot learner。 0.86
arXiv preprint arXiv:2005.14165, 2020. arXiv preprint arXiv:2005.14165, 2020 0.81
英語(論文から抽出)日本語訳スコア
10 19. 20. 10 19. 20. 0.85
21. 22. 23. 21. 22. 23. 0.85
24. 25. 26. 24. 25. 26. 0.85
27. 28. 29. 27. 28. 29. 0.85
30. 31. 32. 30. 31. 32. 0.85
33. 34. Wu, H., et al., Cvt: Introducing convolutions to vision transformers. 33. 34. Wu, H., et al., Cvt: ビジョントランスフォーマーへの畳み込みの導入。 0.83
arXiv preprint arXiv:2103.15808, 2021. arXiv preprint arXiv:2103.15808, 2021 0.81
Chu, X., et al., Do we really need explicit position encodings for vision transformers? chu, x., al. 視覚トランスフォーマーのための明示的な位置エンコーディングは本当に必要か? 0.65
arXiv e-prints, 2021: p. arXiv: 2102.10882. arXiv e-prints, 2021: p. arXiv: 2102.10882。 0.79
Chen, M., et al. Chen, M., et al. 0.85
Generative pretraining from pixels. ピクセルからの生成前トレーニング。 0.70
in International Conference on Machine Learning. 機械学習に関する国際会議に参加。 0.80
2020. PMLR. 2020. PMLR。 0.83
Kim, B., et al , HOTR: End-to-End Human-Object Interaction Detection with Transformers. Kim, B., et al , HOTR: End-to-End Human-Object Interaction Detection with Transformers 0.88
arXiv preprint arXiv:2104.13682, 2021. arXiv preprint arXiv:2104.13682, 2021 0.81
Dosovitskiy, A., et al., An image is worth 16x16 words: Transformers for image recognition at scale. Dosovitskiy, A., et al., Image is worth 16x16 words: Transformer for image Recognition at scale。 0.82
arXiv preprint arXiv:2010.11929, 2020. arXiv preprint arXiv:2010.11929, 2020 0.81
Yang, F., et al. Yang, F., et al. 0.85
Learning texture transformer network for image superresolution. 画像超解像のための学習テクスチャトランスフォーマーネットワーク 0.72
in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 0.86
2020. Chen, H., et al., Pre-trained image processing transformer. 2020. Chen, H., et al., Pre-trained Image Processing Transformer 0.85
arXiv preprint arXiv:2012.00364, 2020. arXiv preprint arXiv:2012.00364, 2020 0.81
Choromanski, K., et al , Rethinking attention with performers. Choromanski, K., et al, Rethinking attention with performers。 0.79
arXiv preprint arXiv:2009.14794, 2020. arXiv preprint arXiv:2009.14794, 2020 0.81
Liu, Z., et al , Swin transformer: Hierarchical vision transformer using shifted windows. Liu, Z., et al , Swin transformer: シフトウィンドウを使った階層型視覚変換器。 0.85
arXiv preprint arXiv:2103.14030, 2021. arXiv preprint arXiv:2103.14030, 2021 0.81
Cao, H., et al., Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation. Cao, H., et al., Swin-Unet:UnetライクなPure Transformer for Medical Image Segmentation。 0.88
arXiv preprint arXiv:2105.05537, 2021. arXiv preprint arXiv:2105.05537, 2021 0.81
Yuan, L., et al., Tokens-to-token vit: Training vision transformers from scratch on imagenet. yuan, l., et al., tokens-to-token vit: training vision transformers from scratch on imagenet (英語) 0.78
arXiv preprint arXiv:2101.11986, 2021. arXiv preprint arXiv:2101.1 1986, 2021 0.72
Touvron, H., et al , Training data-efficient image transformers & distillation through attention. Touvron, H., et al , Training data- efficient image transformer and distillation through attention。 0.88
arXiv preprint arXiv:2012.12877, 2020. arXiv preprint arXiv:2012.12877, 2020 0.81
Han, K., et al , Transformer in transformer. Han, K., et al , Transformer in transformer 0.75
arXiv preprint arXiv:2103.00112, 2021. arXiv preprint arXiv:2103.00112, 2021 0.80
Zhang, Z., et al , TransCT: Dual-path Transformer for Low Dose Computed Tomography. Zhang, Z., et al , TransCT: Dual-path Transformer for Low Dose Computed Tomography 0.84
arXiv preprint arXiv:2103.00634, 2021. arXiv preprint arXiv:2103.00634, 2021 0.80
Shan, H., et al., Competitive performance of a modularized deep neural network compared to commercial algorithms for low-dose CT image reconstruction. Shan, H., et al., モジュール化されたディープニューラルネットワークの競合性能を低用量CT画像再構成のための商用アルゴリズムと比較した。 0.70
Nature Machine Intelligence, 2019. ナチュラル・マシン・インテリジェンス、2019年。 0.47
1(6): p. 269-276. 1(6):p.269-276。 0.78
Tian, C., et al , Attention-guided CNN for image denoising. Tian, C., et al , Attention-guided CNN for image denoising 0.85
Neural Networks, 2020. ニューラルネットワーク、2020年。 0.79
124: p. 117-129. 124: p.117-129。 0.73
                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。