論文の概要: PEM: Prototype-based Efficient MaskFormer for Image Segmentation
- arxiv url: http://arxiv.org/abs/2402.19422v1
- Date: Thu, 29 Feb 2024 18:21:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:39:47.189739
- Title: PEM: Prototype-based Efficient MaskFormer for Image Segmentation
- Title(参考訳): PEM:画像セグメンテーションのためのプロトタイプベース効率的なマスクフォーマ
- Authors: Niccol\`o Cavagnero, Gabriele Rosi, Claudia Ruttano, Francesca
Pistilli, Marco Ciccone, Giuseppe Averta, Fabio Cermelli
- Abstract要約: 最近のトランスベースのアーキテクチャは、画像セグメンテーションの分野で印象的な成果を上げている。
複数のセグメンテーションタスクで動作可能な効率的なトランスフォーマーベースのアーキテクチャであるPEM(Prototype-based Efficient MaskFormer)を提案する。
- 参考スコア(独自算出の注目度): 11.337124042222717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent transformer-based architectures have shown impressive results in the
field of image segmentation. Thanks to their flexibility, they obtain
outstanding performance in multiple segmentation tasks, such as semantic and
panoptic, under a single unified framework. To achieve such impressive
performance, these architectures employ intensive operations and require
substantial computational resources, which are often not available, especially
on edge devices. To fill this gap, we propose Prototype-based Efficient
MaskFormer (PEM), an efficient transformer-based architecture that can operate
in multiple segmentation tasks. PEM proposes a novel prototype-based
cross-attention which leverages the redundancy of visual features to restrict
the computation and improve the efficiency without harming the performance. In
addition, PEM introduces an efficient multi-scale feature pyramid network,
capable of extracting features that have high semantic content in an efficient
way, thanks to the combination of deformable convolutions and context-based
self-modulation. We benchmark the proposed PEM architecture on two tasks,
semantic and panoptic segmentation, evaluated on two different datasets,
Cityscapes and ADE20K. PEM demonstrates outstanding performance on every task
and dataset, outperforming task-specific architectures while being comparable
and even better than computationally-expensive baselines.
- Abstract(参考訳): 最近のトランスフォーマーベースのアーキテクチャは、画像セグメンテーションの分野で素晴らしい結果を示している。
柔軟性のおかげで、単一の統一フレームワークの下で、semanticやpanopticといった複数のセグメンテーションタスクにおいて、優れたパフォーマンスを得ることができます。
このような印象的な性能を達成するために、これらのアーキテクチャは、特にエッジデバイスでは利用できない大規模な計算資源を必要とする。
このギャップを埋めるために、複数のセグメンテーションタスクで動作可能な効率的なトランスフォーマーベースのアーキテクチャであるPEM(Prototype-based Efficient MaskFormer)を提案する。
PEMは、視覚的特徴の冗長性を利用して計算を制限し、性能を損なうことなく効率を向上する、新しいプロトタイプベースのクロスアテンションを提案する。
さらに、PEMは、変形可能な畳み込みとコンテキストベースの自己変調の組み合わせにより、高い意味的内容を持つ特徴を効率的に抽出できる効率的なマルチスケール特徴ピラミッドネットワークを導入している。
提案したPEMアーキテクチャをセマンティックとパン光学セグメンテーションの2つのタスクでベンチマークし、CityscapesとADE20Kの2つの異なるデータセットで評価した。
PEMは、すべてのタスクとデータセットで優れたパフォーマンスを示し、タスク固有のアーキテクチャよりも優れ、計算に精通するベースラインよりも同等で、さらに優れている。
関連論文リスト
- AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - MacFormer: Semantic Segmentation with Fine Object Boundaries [38.430631361558426]
新しいセマンティックセグメンテーションアーキテクチャであるMacFormer'を導入する。
まず、学習可能なエージェントトークンを使用することで、Mutual Agent Cross-Attention(MACA)メカニズムは、エンコーダ層とデコーダ層をまたいだ機能の双方向統合を効果的に実現する。
第二に、デコーダ内の周波数拡張モジュール(FEM)は高周波および低周波成分を活用して周波数領域の特徴を高める。
MacFormerはさまざまなネットワークアーキテクチャと互換性があり、ADE20KベンチマークとCityscapesの精度と効率の両方で既存のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-11T05:36:10Z) - The revenge of BiSeNet: Efficient Multi-Task Image Segmentation [6.172605433695617]
BiSeNetFormerは、効率的なマルチタスク画像セグメンテーションのための新しいアーキテクチャである。
複数のタスクをシームレスにサポートすることで、BiSeNetFormerはマルチタスクセグメンテーションのための汎用的なソリューションを提供する。
以上の結果から, BiSeNetFormerは高速, 効率的, マルチタスクセグメンテーションネットワークへの大きな進歩を示していることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T08:32:18Z) - Mixed-Query Transformer: A Unified Image Segmentation Architecture [57.32212654642384]
既存の統合イメージセグメンテーションモデルは、複数のタスクにまたがる統一アーキテクチャを採用するが、各データセットに合わせた個別の重みを使用するか、複数のデータセットに1セットの重みを適用するが、1つのタスクに限定される。
マルチタスクとマルチデータセット画像セグメンテーションを一組の重みで統合したアーキテクチャであるMixed-Query Transformer (MQ-Former)を紹介した。
論文 参考訳(メタデータ) (2024-04-06T01:54:17Z) - Perceiving Longer Sequences With Bi-Directional Cross-Attention Transformers [13.480259378415505]
BiXTは、計算コストとメモリ消費の観点から、入力サイズと線形にスケールする。
BiXTはPerceiverアーキテクチャにインスパイアされているが、反復的な注意を効率よく双方向のクロスアテンションモジュールに置き換える。
効率性とフルトランスフォーマーアーキテクチャの汎用性と性能を組み合わせることで、BiXTはより長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-02-19T13:38:15Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Simple and Efficient Architectures for Semantic Segmentation [50.1563637917129]
ResNetのようなバックボーンと小型のマルチスケールヘッドを備えた単純なエンコーダデコーダアーキテクチャは,HRNetやFANet,DDRNetといった複雑なセマンティックセマンティックセマンティクスアーキテクチャよりも優れていることを示す。
そこで我々は,Cityscapesデータセット上の複雑なモデルの性能に適合する,あるいは超越した,デスクトップおよびモバイルターゲット用のこのようなシンプルなアーキテクチャのファミリーを提示する。
論文 参考訳(メタデータ) (2022-06-16T15:08:34Z) - CARAFE++: Unified Content-Aware ReAssembly of FEatures [132.49582482421246]
この目標を達成するために、ユニバーサルで軽量で高効率なオペレータであるContent-Aware ReAssembly of FEatures(CARAFE++)を提案します。
CARAFE++は、インスタンス固有のコンテンツ認識処理を可能にするアダプティブカーネルをオンザフライで生成する。
計算のオーバーヘッドが無視できるすべてのタスクにおいて、一貫性と実質的な利益を示しています。
論文 参考訳(メタデータ) (2020-12-07T07:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。