論文の概要: PRSeg: A Lightweight Patch Rotate MLP Decoder for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2305.00671v1
- Date: Mon, 1 May 2023 06:03:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 14:03:05.830688
- Title: PRSeg: A Lightweight Patch Rotate MLP Decoder for Semantic Segmentation
- Title(参考訳): PRSeg: セマンティックセグメンテーションのための軽量パッチロータレートMPPデコーダ
- Authors: Yizhe Ma, Fangjian Lin, Sitong Wu, Shengwei Tian, Long Yu
- Abstract要約: 画素を再編成するパラメトリックフリーパッチ回転演算を提案する。
既製のバックボーンを含む新しいセグメンテーションネットワークであるPSSegを設計する。
ADE20K、Cityscapes、COCO-Stuff 10Kデータセットの実験により、我々のアプローチの有効性が証明された。
- 参考スコア(独自算出の注目度): 4.406336825345075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The lightweight MLP-based decoder has become increasingly promising for
semantic segmentation. However, the channel-wise MLP cannot expand the
receptive fields, lacking the context modeling capacity, which is critical to
semantic segmentation. In this paper, we propose a parametric-free patch rotate
operation to reorganize the pixels spatially. It first divides the feature map
into multiple groups and then rotates the patches within each group. Based on
the proposed patch rotate operation, we design a novel segmentation network,
named PRSeg, which includes an off-the-shelf backbone and a lightweight Patch
Rotate MLP decoder containing multiple Dynamic Patch Rotate Blocks
(DPR-Blocks). In each DPR-Block, the fully connected layer is performed
following a Patch Rotate Module (PRM) to exchange spatial information between
pixels. Specifically, in PRM, the feature map is first split into the reserved
part and rotated part along the channel dimension according to the predicted
probability of the Dynamic Channel Selection Module (DCSM), and our proposed
patch rotate operation is only performed on the rotated part. Extensive
experiments on ADE20K, Cityscapes and COCO-Stuff 10K datasets prove the
effectiveness of our approach. We expect that our PRSeg can promote the
development of MLP-based decoder in semantic segmentation.
- Abstract(参考訳): MLPベースの軽量デコーダは、セマンティックセグメンテーションにますます期待されている。
しかし、チャネルワイズMLPは、セマンティックセグメンテーションにとって重要なコンテキストモデリング能力が欠如しているため、受容領域を拡張できない。
本稿では,空間的に画素を再構成するパラメトリックフリーパッチ回転演算を提案する。
まず特徴マップを複数のグループに分割し、各グループ内でパッチを回転させる。
提案したパッチローテーション動作に基づいて,複数の動的パッチロータットブロック(DPR-Blocks)を含むオフザシェルバックボーンと軽量なパッチロータットMPPデコーダを備えた,PSSegと呼ばれるセグメントネットワークを設計する。
各dprブロックでは、パッチ回転モジュール(prm)に従って全連結層が実行され、画素間で空間情報を交換する。
具体的には、prmにおいて、特徴マップをまず、動的チャネル選択モジュール(dcsm)の予測確率に応じて、予約部とチャネル寸法に沿って回転部とに分割し、提案するパッチ回転操作は、回転部のみで行う。
ADE20K、Cityscapes、COCO-Stuff 10Kデータセットに関する大規模な実験により、我々のアプローチの有効性が証明された。
我々はPSSegが意味的セグメンテーションにおけるMPPベースのデコーダの開発を促進することを期待している。
関連論文リスト
- Positional Prompt Tuning for Efficient 3D Representation Learning [16.25423192020736]
ポイントクラウド分析は大きな発展を遂げており、ポイントクラウドの分類やセグメンテーションなど、複数のダウンストリームタスクでうまく機能している。
トランスフォーマーアーキテクチャにおける位置符号化構造の単純さを意識して、高次元部分としての位置符号化と、マルチスケール情報を提供するパッチエンコーダを重要視する。
ScanObjectNN OBJ_BGデータセットの95.01%の精度など、いくつかの主流データセットにおいて、PEFTタスクの提案した手法は、トレーニング用のパラメータの1.05%しか持たない。
論文 参考訳(メタデータ) (2024-08-21T12:18:34Z) - Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive
Learning [82.70453633641466]
Patch Aligned Contrastive Learning (PACL)を導入する。
PACLは画像レベルの予測にも適用可能であることを示し、CLIPバックボーンで使用すると、ゼロショット分類精度が全般的に向上することを示した。
論文 参考訳(メタデータ) (2022-12-09T17:23:00Z) - CM-MLP: Cascade Multi-scale MLP with Axial Context Relation Encoder for
Edge Segmentation of Medical Image [6.678473881771895]
MFI(Multiscale Feature Interaction)ブロックとACRE(Axial Context)ブロック上のCM-MLPフレームワークを医用画像のエッジの正確なセグメンテーションのために提案する。
提案したCM-MLPフレームワークのセグメンテーション精度(Dice)は,3つのベンチマークデータセットで96.96%,96.76%,82.54%に達する。
論文 参考訳(メタデータ) (2022-08-23T02:53:37Z) - Improved-Flow Warp Module for Remote Sensing Semantic Segmentation [9.505303195320023]
リモートセンシングセマンティックセグメンテーションのために,異なるスケールのセマンティックな特徴マップを調整するための改良フローワープモジュール (IFWM) を提案する。
IFWMは、画素のオフセットを学習可能な方法で計算し、マルチスケール機能の誤調整を軽減する。
提案手法を複数のリモートセンシングデータセットで検証し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-05-09T10:15:18Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z) - UNeXt: MLP-based Rapid Medical Image Segmentation Network [80.16644725886968]
UNetとその最新の拡張であるTransUNetは、ここ数年で主要な医療画像分割手法である。
画像分割のための畳み込み多層パーセプトロンネットワークUNeXtを提案する。
パラメータ数を72倍に減らし,計算複雑性を68倍に減らし,推論速度を10倍に改善し,セグメンテーション性能も向上した。
論文 参考訳(メタデータ) (2022-03-09T18:58:22Z) - Layout-to-Image Translation with Double Pooling Generative Adversarial
Networks [76.83075646527521]
入力レイアウトからフォトリアリスティックでセマンティックに一貫性のある結果を生成するための新しいDouble Pooing GAN(DPGAN)を提案する。
また,角形プールモジュール (SPM) と矩形プールモジュール (RPM) からなる新しい二重プールモジュール (DPM) を提案する。
論文 参考訳(メタデータ) (2021-08-29T19:55:14Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Few-shot Action Recognition with Permutation-invariant Attention [169.61294360056925]
ビデオブロックを符号化するC3Dエンコーダを用いて、短距離アクションパターンをキャプチャする。
我々は,空間的・時間的注意モジュールと自然主義的自己スーパービジョンを利用する。
提案手法は,HMDB51, UCF101, miniMITデータセット上での最先端技術である。
論文 参考訳(メタデータ) (2020-01-12T10:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。