論文の概要: More complex encoder is not all you need
- arxiv url: http://arxiv.org/abs/2309.11139v3
- Date: Fri, 27 Oct 2023 13:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 16:52:08.007116
- Title: More complex encoder is not all you need
- Title(参考訳): 複雑なエンコーダは必要なだけではありません
- Authors: Weibin Yang, Longwei Xu, Pengwei Wang, Dehua Geng, Yusong Li, Mingyuan
Xu, Zhiqi Dong
- Abstract要約: 我々は,強力なデコーダを構築するために,新しいサブピクセル・コンボリューションを組み込んだneU-Net(複雑なエンコーダではないU-Net)を導入する。
我々のモデル設計は、SynapseとACDCの両方のデータセット上で、最先端の手法を上回る優れた結果が得られる。
- 参考スコア(独自算出の注目度): 0.882348769487259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: U-Net and its variants have been widely used in medical image segmentation.
However, most current U-Net variants confine their improvement strategies to
building more complex encoder, while leaving the decoder unchanged or adopting
a simple symmetric structure. These approaches overlook the true functionality
of the decoder: receiving low-resolution feature maps from the encoder and
restoring feature map resolution and lost information through upsampling. As a
result, the decoder, especially its upsampling component, plays a crucial role
in enhancing segmentation outcomes. However, in 3D medical image segmentation,
the commonly used transposed convolution can result in visual artifacts. This
issue stems from the absence of direct relationship between adjacent pixels in
the output feature map. Furthermore, plain encoder has already possessed
sufficient feature extraction capability because downsampling operation leads
to the gradual expansion of the receptive field, but the loss of information
during downsampling process is unignorable. To address the gap in relevant
research, we extend our focus beyond the encoder and introduce neU-Net (i.e.,
not complex encoder U-Net), which incorporates a novel Sub-pixel Convolution
for upsampling to construct a powerful decoder. Additionally, we introduce
multi-scale wavelet inputs module on the encoder side to provide additional
information. Our model design achieves excellent results, surpassing other
state-of-the-art methods on both the Synapse and ACDC datasets.
- Abstract(参考訳): U-Netとその変種は医療画像のセグメンテーションで広く使われている。
しかし、現在のほとんどのU-Net変種は、より複雑なエンコーダを構築するための改善戦略を制限しているが、デコーダは変わらないか単純な対称構造を採用する。
これらのアプローチはデコーダの真の機能を見落としている: エンコーダから低解像度のフィーチャーマップを受け取り、機能マップの解像度を回復し、アップサンプリングによって情報を失う。
結果として、デコーダ、特にアップサンプリングコンポーネントは、セグメンテーションの結果を高める上で重要な役割を果たす。
しかし、3次元の医用画像分割では、一般的に使われる畳み込みは視覚的なアーティファクトをもたらす可能性がある。
この問題は、出力特徴写像に隣接するピクセル間の直接関係がないことに起因する。
さらに, 平板エンコーダは, ダウンサンプリング操作によって受信フィールドが徐々に拡大するので, 十分な特徴抽出能力を有しているが, ダウンサンプリング処理時の情報損失は無視できない。
関連する研究のギャップに対処するため、我々はエンコーダを超えて焦点を広げ、強力なデコーダを構築するために新しいサブピクセル畳み込みを組み込んだneu-net(複雑エンコーダu-netではない)を導入する。
さらに,エンコーダ側では,複数スケールのウェーブレット入力モジュールを導入し,追加情報を提供する。
我々のモデル設計は、SynapseとACDCの両方のデータセット上で、最先端の手法を上回る優れた結果が得られる。
関連論文リスト
- Optimizing Medical Image Segmentation with Advanced Decoder Design [0.8402155549849591]
U-Netは、シンプルで柔軟なアーキテクチャ設計のため、医用画像のセグメンテーションで広く使われている。
提案するSwin DER(Swin UNETR Decoder Enhanced and Refined)は,これらの3つのコンポーネントの設計を最適化する。
我々のモデル設計は、SynapseとMSDの脳腫瘍セグメント化タスクの両方において、最先端の手法を超越して優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-05T11:47:13Z) - $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - MUSTER: A Multi-scale Transformer-based Decoder for Semantic Segmentation [19.83103856355554]
MUSTERはトランスフォーマーベースのデコーダで、階層エンコーダとシームレスに統合される。
MSKAユニットはエンコーダとデコーダからのマルチスケール機能の融合を可能にし、包括的な情報統合を容易にする。
ADE20Kデータセットでは,50.23の単一スケールmIoUと51.88のマルチスケールmIoUを達成する。
論文 参考訳(メタデータ) (2022-11-25T06:51:07Z) - SoftPool++: An Encoder-Decoder Network for Point Cloud Completion [93.54286830844134]
本稿では,ポイントクラウド完了作業のための新しい畳み込み演算子を提案する。
提案した演算子は、最大プールやボキセル化操作を一切必要としない。
提案手法は,低解像度・高解像度の形状仕上げにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T15:31:36Z) - FusionCount: Efficient Crowd Counting via Multiscale Feature Fusion [36.15554768378944]
本稿では,新しい群集カウントアーキテクチャ(FusionCount)を提案する。
マルチスケールな特徴を得るために、追加の抽出コンポーネントに頼るのではなく、ほとんどのエンコードされた特徴の適応的な融合を利用する。
2つのベンチマークデータベースの実験により、我々のモデルは計算の複雑さを減らして最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2022-02-28T10:04:07Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Transformer Meets DCFAM: A Novel Semantic Segmentation Scheme for
Fine-Resolution Remote Sensing Images [6.171417925832851]
Swin Transformerをバックボーンとして導入し、コンテキスト情報を完全に抽出します。
また、高密度接続特徴集合モジュール(DCFAM)と呼ばれる新しいデコーダを設計し、解像度を復元し、セグメンテーションマップを生成する。
論文 参考訳(メタデータ) (2021-04-25T11:34:22Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。