論文の概要: 3D Shuffle-Mixer: An Efficient Context-Aware Vision Learner of
Transformer-MLP Paradigm for Dense Prediction in Medical Volume
- arxiv url: http://arxiv.org/abs/2204.06779v1
- Date: Thu, 14 Apr 2022 06:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 12:20:54.481942
- Title: 3D Shuffle-Mixer: An Efficient Context-Aware Vision Learner of
Transformer-MLP Paradigm for Dense Prediction in Medical Volume
- Title(参考訳): 3d shuffle-mixer: 医療容積の密集予測のためのトランスフォーマーmlpパラダイムの効率的な文脈認識視覚学習器
- Authors: Jianye Pang, Cheng Jiang, Yihao Chen, Jianbo Chang, Ming Feng, Renzhi
Wang and Jianhua Yao
- Abstract要約: CNNのバックボーンは、長距離依存とグローバルコンテキストモデリング能力の欠如によりボトルネックに直面している。
視覚変換器とCNNを併用する最近の研究は、その強力なグローバルキャプチャ能力と学習能力のために提案されている。
医用高密度予測のための新しいローカルビジョントランスフォーマー-MLPパラダイムの3次元シャッフルミクサネットワークを提案する。
- 参考スコア(独自算出の注目度): 4.487762652157565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense prediction in medical volume provides enriched guidance for clinical
analysis. CNN backbones have met bottleneck due to lack of long-range
dependencies and global context modeling power. Recent works proposed to
combine vision transformer with CNN, due to its strong global capture ability
and learning capability. However, most works are limited to simply applying
pure transformer with several fatal flaws (i.e., lack of inductive bias, heavy
computation and little consideration for 3D data). Therefore, designing an
elegant and efficient vision transformer learner for dense prediction in
medical volume is promising and challenging. In this paper, we propose a novel
3D Shuffle-Mixer network of a new Local Vision Transformer-MLP paradigm for
medical dense prediction. In our network, a local vision transformer block is
utilized to shuffle and learn spatial context from full-view slices of
rearranged volume, a residual axial-MLP is designed to mix and capture
remaining volume context in a slice-aware manner, and a MLP view aggregator is
employed to project the learned full-view rich context to the volume feature in
a view-aware manner. Moreover, an Adaptive Scaled Enhanced Shortcut is proposed
for local vision transformer to enhance feature along spatial and channel
dimensions adaptively, and a CrossMerge is proposed to skip-connects the
multi-scale feature appropriately in the pyramid architecture. Extensive
experiments demonstrate the proposed model outperforms other state-of-the-art
medical dense prediction methods.
- Abstract(参考訳): 医療量予測は、臨床分析のための豊富なガイダンスを提供する。
CNNのバックボーンは、長距離依存とグローバルコンテキストモデリング能力の欠如によりボトルネックに直面している。
視覚トランスフォーマーとcnnを組み合わせるための最近の研究は、その強力なグローバルキャプチャ能力と学習能力のために提案されている。
しかし、ほとんどの研究は、いくつかの致命的な欠陥(帰納的バイアスの欠如、重い計算、そして3Dデータに対する考慮不足)を持つ純粋なトランスフォーマーを単に適用することに限定されている。
したがって、医療容積の密集した予測のためのエレガントで効率的な視覚トランスフォーマー学習器の設計は、有望かつ困難である。
本稿では,医療密度予測のための新しいローカルビジョン変換器-MLPパラダイムの3次元シャッフルミクサネットワークを提案する。
我々のネットワークでは、局所視覚変換器ブロックを用いて、再配置されたボリュームのフルビュースライスから空間コンテキストをシャッフルし学習し、残りのボリュームコンテキストをスライス対応で混合・キャプチャする残軸MLPを設計し、MLPビューアグリゲータを用いて学習されたフルビューリッチコンテキストをビュー対応でボリューム特徴に投影する。
さらに、局所視覚変換器において、空間次元やチャネル次元に沿った特徴を適応的に拡張する適応的スケール拡張ショートカットを提案し、ピラミッド構造におけるマルチスケール特徴を適切にスキップ接続するクロスマージを提案する。
大規模な実験は、提案モデルが他の最先端の医療密度予測法より優れていることを示す。
関連論文リスト
- CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Boosting Convolution with Efficient MLP-Permutation for Volumetric
Medical Image Segmentation [32.645022002807416]
マルチレイヤパーセプトロン(MLP)ネットワークは、ViTに匹敵する結果により、研究者の間で人気を取り戻している。
本稿では,コンボリューションニューラルネットワーク(CNN)とPHNetの両方の長所を活かしたPHNetという,Vol-MedSeg用の新しい可変ハイブリッドネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-23T08:59:09Z) - Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation [11.690799827071606]
我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。
CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-10-14T19:18:52Z) - View-Disentangled Transformer for Brain Lesion Detection [50.4918615815066]
より正確な腫瘍検出のためのMRI特徴抽出のための新しいビューディペンタングル変換器を提案する。
まず, 3次元脳スキャンにおいて, 異なる位置の長距離相関を求める。
第二に、トランスフォーマーはスライス機能のスタックを複数の2Dビューとしてモデル化し、これらの機能をビュー・バイ・ビューとして拡張する。
第三に、提案したトランスモジュールをトランスのバックボーンに展開し、脳病変を取り巻く2D領域を効果的に検出する。
論文 参考訳(メタデータ) (2022-09-20T11:58:23Z) - PHTrans: Parallelly Aggregating Global and Local Representations for
Medical Image Segmentation [7.140322699310487]
我々はPHTransと呼ばれる医用画像分割のための新しいハイブリッドアーキテクチャを提案する。
PHTransはTransformerとCNNを並列にハイブリッド化し、グローバルな特徴とローカルな特徴から階層的な表現を生成する。
論文 参考訳(メタデータ) (2022-03-09T08:06:56Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - VC-Net: Deep Volume-Composition Networks for Segmentation and
Visualization of Highly Sparse and Noisy Image Data [13.805816310795256]
本稿では,3次元微小血管のロバスト抽出のためのエンドツーエンド深層学習手法VC-Netを提案する。
中心となる新規性は、ボリューム可視化技術(MIP)を自動利用して、3Dデータ探索を強化することである。
マルチストリーム畳み込みニューラルネットワークは、それぞれ3次元体積と2次元MIPの特徴を学習し、その相互依存性を結合体積-合成埋め込み空間で探索するために提案される。
論文 参考訳(メタデータ) (2020-09-14T04:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。