論文の概要: WiTUnet: A U-Shaped Architecture Integrating CNN and Transformer for Improved Feature Alignment and Local Information Fusion
- arxiv url: http://arxiv.org/abs/2404.09533v1
- Date: Mon, 15 Apr 2024 07:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 13:09:46.051748
- Title: WiTUnet: A U-Shaped Architecture Integrating CNN and Transformer for Improved Feature Alignment and Local Information Fusion
- Title(参考訳): WiTUnet:CNNとTransformerを統合したU字型アーキテクチャ
- Authors: Bin Wang, Fei Deng, Peifan Jiang, Shuang Wang, Xiao Han, Hongjie Zheng,
- Abstract要約: 低線量CT (LDCT) は, 標準CTと比較して放射線線量が少ないことから, 医用画像診断において選択される技術となっている。
本稿では,従来のスキップ接続ではなく,ネストされた高密度スキップ経路を利用するLDCT画像復号法であるWiTUnetを紹介する。
- 参考スコア(独自算出の注目度): 14.442164347956998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-dose computed tomography (LDCT) has become the technology of choice for diagnostic medical imaging, given its lower radiation dose compared to standard CT, despite increasing image noise and potentially affecting diagnostic accuracy. To address this, advanced deep learning-based LDCT denoising algorithms have been developed, primarily using Convolutional Neural Networks (CNNs) or Transformer Networks with the Unet architecture. This architecture enhances image detail by integrating feature maps from the encoder and decoder via skip connections. However, current methods often overlook enhancements to the Unet architecture itself, focusing instead on optimizing encoder and decoder structures. This approach can be problematic due to the significant differences in feature map characteristics between the encoder and decoder, where simple fusion strategies may not effectively reconstruct images.In this paper, we introduce WiTUnet, a novel LDCT image denoising method that utilizes nested, dense skip pathways instead of traditional skip connections to improve feature integration. WiTUnet also incorporates a windowed Transformer structure to process images in smaller, non-overlapping segments, reducing computational load. Additionally, the integration of a Local Image Perception Enhancement (LiPe) module in both the encoder and decoder replaces the standard multi-layer perceptron (MLP) in Transformers, enhancing local feature capture and representation. Through extensive experimental comparisons, WiTUnet has demonstrated superior performance over existing methods in key metrics such as Peak Signal-to-Noise Ratio (PSNR), Structural Similarity (SSIM), and Root Mean Square Error (RMSE), significantly improving noise removal and image quality.
- Abstract(参考訳): 低線量CT(LDCT)は,画像ノイズが増大し診断精度に影響を及ぼす可能性がありながら,標準CTと比較して放射線線量が少ないことから,医用画像診断において選択される技術となっている。
これを解決するために、先進的なディープラーニングベースのLDCT復調アルゴリズムが開発され、主に畳み込みニューラルネットワーク(CNN)や、Unetアーキテクチャを使ったTransformer Networksが使用されている。
このアーキテクチャは、スキップ接続を介してエンコーダとデコーダから特徴マップを統合することで、画像のディテールを向上させる。
しかし、現在の手法はUnetアーキテクチャ自体の強化を見落とし、代わりにエンコーダとデコーダ構造を最適化することに重点を置いている。
本稿では,従来のスキップ接続ではなく,ネストされた高密度スキップ経路を利用する新しいLDCT画像デノナイズ手法であるWiTUnetを紹介する。
WiTUnetはまた、ウィンドウ化されたトランスフォーマー構造を組み込んで、小さな非重複セグメントで画像を処理し、計算負荷を削減している。
さらに、エンコーダとデコーダの両方にローカルイメージ知覚拡張(LiPe)モジュールを統合することで、トランスフォーマーの標準多層パーセプトロン(MLP)を置き換えることで、ローカル特徴のキャプチャと表現が強化される。
広範にわたる実験的比較により、Pak Signal-to-Noise Ratio (PSNR)、Structure similarity (SSIM)、Root Mean Square Error (RMSE)といった重要な指標において、既存の手法よりも優れた性能を示し、ノイズ除去と画像品質を著しく向上させた。
関連論文リスト
- Enhancing Learned Image Compression via Cross Window-based Attention [4.673285689826945]
特徴符号化モジュールと統合したCNNベースのソリューションを提案する。
クロススケールウィンドウベースアテンションは、変換器のアテンション機構にインスパイアされ、受容場を効果的に拡大する。
提案手法はKodakおよびCLICデータセット上で評価し,提案手法が有効であり,最先端手法と同等であることを示す。
論文 参考訳(メタデータ) (2024-10-28T15:44:35Z) - UTSRMorph: A Unified Transformer and Superresolution Network for Unsupervised Medical Image Registration [4.068692674719378]
複雑な画像登録は、医用画像解析において重要な課題である。
本稿では,UTSRMorphネットワークと統合トランスフォーマー(UTSRMorph)ネットワークという,教師なしの新たな画像登録手法を提案する。
論文 参考訳(メタデータ) (2024-10-27T06:28:43Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - A cross Transformer for image denoising [83.68175077524111]
直列ブロック(SB)、並列ブロック(PB)、残留ブロック(RB)を備えたクロストランスフォーマー(CTNet)を提案する。
CTNetは、実画像や合成画像のデノナイジングにおいて、一般的なデノナイジング法よりも優れている。
論文 参考訳(メタデータ) (2023-10-16T13:53:19Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - Multi-stage image denoising with the wavelet transform [125.2251438120701]
深部畳み込みニューラルネットワーク(Deep Convolutional Neural Network, CNN)は、正確な構造情報を自動マイニングすることで、画像の復調に使用される。
動的畳み込みブロック(DCB)、2つのカスケードウェーブレット変換および拡張ブロック(WEB)、残留ブロック(RB)の3段階を経由した、MWDCNNによるCNNの多段階化を提案する。
論文 参考訳(メタデータ) (2022-09-26T03:28:23Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。
TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-11-12T13:13:20Z) - Sparse-View Spectral CT Reconstruction Using Deep Learning [0.283239609744735]
マルチチャネル入力と出力を持つU-Net畳み込みニューラルネットワークアーキテクチャを用いて、スパースビュースペクトルCTデータを高速に再構成する手法を提案する。
我々の手法は実行時に高速であり、内部の畳み込みはチャネル間で共有されるため、計算負荷は第一層と最後の層でのみ増加する。
論文 参考訳(メタデータ) (2020-11-30T14:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。