Fugu-MT 論文翻訳(概要): PEM: Prototype-based Efficient MaskFormer for Image Segmentation

論文の概要: PEM: Prototype-based Efficient MaskFormer for Image Segmentation

arxiv url: http://arxiv.org/abs/2402.19422v2
Date: Fri, 1 Mar 2024 09:10:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-04 11:42:59.009296
Title: PEM: Prototype-based Efficient MaskFormer for Image Segmentation
Title（参考訳）: PEM:画像セグメンテーションのためのプロトタイプベース効率的なマスクフォーマ
Authors: Niccol\`o Cavagnero, Gabriele Rosi, Claudia Cuttano, Francesca Pistilli, Marco Ciccone, Giuseppe Averta, Fabio Cermelli
Abstract要約: 最近のトランスベースのアーキテクチャは、画像セグメンテーションの分野で印象的な成果を上げている。複数のセグメンテーションタスクで動作可能な効率的なトランスフォーマーベースのアーキテクチャであるPEM(Prototype-based Efficient MaskFormer)を提案する。
参考スコア（独自算出の注目度）: 11.337124042222717
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent transformer-based architectures have shown impressive results in the field of image segmentation. Thanks to their flexibility, they obtain outstanding performance in multiple segmentation tasks, such as semantic and panoptic, under a single unified framework. To achieve such impressive performance, these architectures employ intensive operations and require substantial computational resources, which are often not available, especially on edge devices. To fill this gap, we propose Prototype-based Efficient MaskFormer (PEM), an efficient transformer-based architecture that can operate in multiple segmentation tasks. PEM proposes a novel prototype-based cross-attention which leverages the redundancy of visual features to restrict the computation and improve the efficiency without harming the performance. In addition, PEM introduces an efficient multi-scale feature pyramid network, capable of extracting features that have high semantic content in an efficient way, thanks to the combination of deformable convolutions and context-based self-modulation. We benchmark the proposed PEM architecture on two tasks, semantic and panoptic segmentation, evaluated on two different datasets, Cityscapes and ADE20K. PEM demonstrates outstanding performance on every task and dataset, outperforming task-specific architectures while being comparable and even better than computationally-expensive baselines.
Abstract（参考訳）: 最近のトランスフォーマーベースのアーキテクチャは、画像セグメンテーションの分野で素晴らしい結果を示している。柔軟性のおかげで、単一の統一フレームワークの下で、semanticやpanopticといった複数のセグメンテーションタスクにおいて、優れたパフォーマンスを得ることができます。このような印象的な性能を達成するために、これらのアーキテクチャは、特にエッジデバイスでは利用できない大規模な計算資源を必要とする。このギャップを埋めるために、複数のセグメンテーションタスクで動作可能な効率的なトランスフォーマーベースのアーキテクチャであるPEM(Prototype-based Efficient MaskFormer)を提案する。 PEMは、視覚的特徴の冗長性を利用して計算を制限し、性能を損なうことなく効率を向上する、新しいプロトタイプベースのクロスアテンションを提案する。さらに、PEMは、変形可能な畳み込みとコンテキストベースの自己変調の組み合わせにより、高い意味的内容を持つ特徴を効率的に抽出できる効率的なマルチスケール特徴ピラミッドネットワークを導入している。提案したPEMアーキテクチャをセマンティックとパン光学セグメンテーションの2つのタスクでベンチマークし、CityscapesとADE20Kの2つの異なるデータセットで評価した。 PEMは、すべてのタスクとデータセットで優れたパフォーマンスを示し、タスク固有のアーキテクチャよりも優れ、計算に精通するベースラインよりも同等で、さらに優れている。

関連論文リスト

EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture [87.55157183411507]
マルチモーダル理解・生成・編集のための効率よく統一されたアーキテクチャEMMAを提案する。 EMMAは主に1)32倍圧縮率の効率的なオートエンコーダから成り、生成に必要なトークンの数を大幅に削減する。 2) 視覚的理解と生成トークン間のトークンワイドな結合ではなく,チャネルワイドな結合により,統一アーキテクチャにおける視覚的トークンの低減が図られる。
論文参考訳（メタデータ） (2025-12-04T14:01:53Z)
ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文参考訳（メタデータ） (2025-01-31T16:11:04Z)
AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。 AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-11-07T18:43:17Z)
MacFormer: Semantic Segmentation with Fine Object Boundaries [38.430631361558426]
新しいセマンティックセグメンテーションアーキテクチャであるMacFormer'を導入する。まず、学習可能なエージェントトークンを使用することで、Mutual Agent Cross-Attention(MACA)メカニズムは、エンコーダ層とデコーダ層をまたいだ機能の双方向統合を効果的に実現する。第二に、デコーダ内の周波数拡張モジュール(FEM)は高周波および低周波成分を活用して周波数領域の特徴を高める。 MacFormerはさまざまなネットワークアーキテクチャと互換性があり、ADE20KベンチマークとCityscapesの精度と効率の両方で既存のメソッドより優れていることが示されている。
論文参考訳（メタデータ） (2024-08-11T05:36:10Z)
The revenge of BiSeNet: Efficient Multi-Task Image Segmentation [6.172605433695617]
BiSeNetFormerは、効率的なマルチタスク画像セグメンテーションのための新しいアーキテクチャである。複数のタスクをシームレスにサポートすることで、BiSeNetFormerはマルチタスクセグメンテーションのための汎用的なソリューションを提供する。以上の結果から, BiSeNetFormerは高速, 効率的, マルチタスクセグメンテーションネットワークへの大きな進歩を示していることが示唆された。
論文参考訳（メタデータ） (2024-04-15T08:32:18Z)
Mixed-Query Transformer: A Unified Image Segmentation Architecture [57.32212654642384]
既存の統合イメージセグメンテーションモデルは、複数のタスクにまたがる統一アーキテクチャを採用するが、各データセットに合わせた個別の重みを使用するか、複数のデータセットに1セットの重みを適用するが、1つのタスクに限定される。マルチタスクとマルチデータセット画像セグメンテーションを一組の重みで統合したアーキテクチャであるMixed-Query Transformer (MQ-Former)を紹介した。
論文参考訳（メタデータ） (2024-04-06T01:54:17Z)
Perceiving Longer Sequences With Bi-Directional Cross-Attention Transformers [13.480259378415505]
BiXTは、計算コストとメモリ消費の観点から、入力サイズと線形にスケールする。 BiXTはPerceiverアーキテクチャにインスパイアされているが、反復的な注意を効率よく双方向のクロスアテンションモジュールに置き換える。効率性とフルトランスフォーマーアーキテクチャの汎用性と性能を組み合わせることで、BiXTはより長いシーケンスを処理できる。
論文参考訳（メタデータ） (2024-02-19T13:38:15Z)
RMP-SAM: Towards Real-Time Multi-Purpose Segment Anything [117.02741621686677]
この研究はリアルタイム多目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を探索する。インタラクティブセグメンテーション、パノスコープセグメンテーション、ビデオインスタンスセグメンテーションの3つの基本的なサブタスクを含んでいる。動的畳み込みに基づく新しい動的畳み込み手法であるReal-Time Multi-Purpose SAM(RMP-SAM)を提案する。効率的なエンコーダと、プロンプト駆動のデコードを実行するための効率的なデカップリングアダプタを含む。
論文参考訳（メタデータ） (2024-01-18T18:59:30Z)
Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文参考訳（メタデータ） (2023-08-04T01:03:58Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Simple and Efficient Architectures for Semantic Segmentation [50.1563637917129]
ResNetのようなバックボーンと小型のマルチスケールヘッドを備えた単純なエンコーダデコーダアーキテクチャは,HRNetやFANet,DDRNetといった複雑なセマンティックセマンティックセマンティクスアーキテクチャよりも優れていることを示す。そこで我々は,Cityscapesデータセット上の複雑なモデルの性能に適合する,あるいは超越した,デスクトップおよびモバイルターゲット用のこのようなシンプルなアーキテクチャのファミリーを提示する。
論文参考訳（メタデータ） (2022-06-16T15:08:34Z)
CARAFE++: Unified Content-Aware ReAssembly of FEatures [132.49582482421246]
この目標を達成するために、ユニバーサルで軽量で高効率なオペレータであるContent-Aware ReAssembly of FEatures(CARAFE++)を提案します。 CARAFE++は、インスタンス固有のコンテンツ認識処理を可能にするアダプティブカーネルをオンザフライで生成する。計算のオーバーヘッドが無視できるすべてのタスクにおいて、一貫性と実質的な利益を示しています。
論文参考訳（メタデータ） (2020-12-07T07:34:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。