論文の概要: More than Encoder: Introducing Transformer Decoder to Upsample
- arxiv url: http://arxiv.org/abs/2106.10637v1
- Date: Sun, 20 Jun 2021 06:58:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:18:04.697056
- Title: More than Encoder: Introducing Transformer Decoder to Upsample
- Title(参考訳): Encoder 以上: Transformer Decoder の Upsample 導入
- Authors: Yijiang Li, Wentian Cai, Ying Gao and Xiping Hu
- Abstract要約: Attention Upsample (AU) は一般的なアップサンプル法として機能し、横接続を持つ任意のセグメンテーションモデルに組み込むことができる。
AUは画素レベルの注意力を活用して、長距離依存とグローバル情報をモデル化し、再構築を改善する。
我々は,契約経路から情報を提供するために,従来のU-Net構造を横接続でテストする。
- 参考スコア(独自算出の注目度): 5.54077251649564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General segmentation models downsample images and then upsample to restore
resolution for pixel level prediction. In such schema, upsample technique is
vital in maintaining information for better performance. In this paper, we
present a new upsample approach, Attention Upsample (AU), that could serve as
general upsample method and be incorporated into any segmentation model that
possesses lateral connections. AU leverages pixel-level attention to model long
range dependency and global information for better reconstruction. It consists
of Attention Decoder (AD) and bilinear upsample as residual connection to
complement the upsampled features. AD adopts the idea of decoder from
transformer which upsamples features conditioned on local and detailed
information from contracting path. Moreover, considering the extensive memory
and computation cost of pixel-level attention, we further propose to use window
attention scheme to restrict attention computation in local windows instead of
global range. Incorporating window attention, we denote our decoder as Window
Attention Decoder (WAD) and our upsample method as Window Attention Upsample
(WAU). We test our method on classic U-Net structure with lateral connection to
deliver information from contracting path and achieve state-of-the-arts
performance on Synapse (80.30 DSC and 23.12 HD) and MSD Brain (74.75 DSC)
datasets.
- Abstract(参考訳): 一般的なセグメンテーションモデルは画像をダウンサンプルし、アップサンプルしてピクセルレベルの予測のために解像度を復元する。
このようなスキーマでは、アップサンプル技術はより良いパフォーマンスのために情報の維持に不可欠である。
本稿では,AU(Attention Upsample)という新しいアップサンプル手法を提案する。これは一般的なアップサンプル手法として機能し,横方向接続を持つ任意のセグメンテーションモデルに組み込むことができる。
AUは画素レベルの注意力を活用して、長距離依存とグローバル情報をモデル化し、再構築を改善する。
Attention Decoder (AD) と Bilinear Upsample で構成されており、アップサンプリングされた特徴を補完する残差接続である。
ADは、コンバータからデコーダのアイデアを採用し、コンバータパスからローカルおよび詳細情報に条件付けられた特徴をアップサンプルする。
さらに,画素レベルの注意の広範なメモリと計算コストを考慮すると,グローバルレンジではなく,ローカルウィンドウの注意計算を制限するために,ウィンドウアテンション方式を提案する。
ウィンドウアテンションを組み込んだデコーダをウィンドウアテンションデコーダ (WAD) とし、アップサンプルをウィンドウアテンションアップサンプレット (WAU) と呼ぶ。
従来のu-net構造を横接続でテストし,契約経路からの情報を配信し,synapse (80.30 dsc, 23.12 hd) とmsd brain (74.75 dsc) データセット上での最先端性能を実現する。
関連論文リスト
- $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - SCALAR-NeRF: SCAlable LARge-scale Neural Radiance Fields for Scene
Reconstruction [66.69049158826677]
本稿では,スケーラブルな大規模ニューラルシーン再構築に適した新しいフレームワークであるSCALAR-NeRFを紹介する。
ニューラル表現をエンコーダ・デコーダアーキテクチャとして構成し、そこではエンコーダが3次元点座標を処理してエンコーダ化された特徴を生成する。
そこで本研究では,これらの局所モデルから出力を抽出し,最終的な再構築を実現するための効率的かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-28T10:18:16Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - More complex encoder is not all you need [0.882348769487259]
我々は,強力なデコーダを構築するために,新しいサブピクセル・コンボリューションを組み込んだneU-Net(複雑なエンコーダではないU-Net)を導入する。
我々のモデル設計は、SynapseとACDCの両方のデータセット上で、最先端の手法を上回る優れた結果が得られる。
論文 参考訳(メタデータ) (2023-09-20T08:34:38Z) - MUSTER: A Multi-scale Transformer-based Decoder for Semantic Segmentation [19.83103856355554]
MUSTERはトランスフォーマーベースのデコーダで、階層エンコーダとシームレスに統合される。
MSKAユニットはエンコーダとデコーダからのマルチスケール機能の融合を可能にし、包括的な情報統合を容易にする。
ADE20Kデータセットでは,50.23の単一スケールmIoUと51.88のマルチスケールmIoUを達成する。
論文 参考訳(メタデータ) (2022-11-25T06:51:07Z) - Attention Attention Everywhere: Monocular Depth Prediction with Skip
Attention [6.491470878214977]
単眼深度推定(MDE)は、1枚のRGB画像から画素幅の深さを予測することを目的としている。
コンピュータビジョン問題における注目のメリットの実証から着想を得て,注意に基づくエンコーダとデコーダの融合を提案する。
論文 参考訳(メタデータ) (2022-10-17T13:14:47Z) - Hierarchical Point Cloud Encoding and Decoding with Lightweight
Self-Attention based Model [22.338247335791095]
SA-CNNは、ポイントクラウドデータの表現学習のための自己アテンションベースのエンコーディングおよびデコードアーキテクチャである。
SA-CNNは, 分類, 部分分割, 再構成, 形状検索, 教師なし分類など, 幅広い応用が可能であることを実証する。
論文 参考訳(メタデータ) (2022-02-13T21:10:06Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - FOVEA: Foveated Image Magnification for Autonomous Navigation [53.69803081925454]
入力キャンバスを小さく保ちながら、ある領域を弾性的に拡大する注意的アプローチを提案する。
提案手法は,高速R-CNNより高速かつ微調整の少ない検出APを高速化する。
Argoverse-HD と BDD100K の自律走行データセットでは,提案手法が標準の高速 R-CNN を超越した検出APを微調整なしで促進することを示す。
論文 参考訳(メタデータ) (2021-08-27T03:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。