論文の概要: MSDNet: Multi-Scale Decoder for Few-Shot Semantic Segmentation via Transformer-Guided Prototyping
- arxiv url: http://arxiv.org/abs/2409.11316v1
- Date: Tue, 17 Sep 2024 16:14:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 15:47:40.986086
- Title: MSDNet: Multi-Scale Decoder for Few-Shot Semantic Segmentation via Transformer-Guided Prototyping
- Title(参考訳): MSDNet: Transformer-Guided PrototypingによるFew-Shot Semantic Segmentationのためのマルチスケールデコーダ
- Authors: Amirreza Fateh, Mohammad Reza Mohammadi, Mohammad Reza Jahed Motlagh,
- Abstract要約: 少数の例だけで、クエリイメージ内のオブジェクトをセグメント化するという課題に、Semanticは対処している。
本稿では,トランスアーキテクチャに基づく新しいFew-shot Semanticフレームワークを提案する。
150万のパラメータしか持たないモデルでは,既存の手法の限界を克服しつつ,競争性能を実証している。
- 参考スコア(独自算出の注目度): 1.1557852082644071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot Semantic Segmentation addresses the challenge of segmenting objects in query images with only a handful of annotated examples. However, many previous state-of-the-art methods either have to discard intricate local semantic features or suffer from high computational complexity. To address these challenges, we propose a new Few-shot Semantic Segmentation framework based on the transformer architecture. Our approach introduces the spatial transformer decoder and the contextual mask generation module to improve the relational understanding between support and query images. Moreover, we introduce a multi-scale decoder to refine the segmentation mask by incorporating features from different resolutions in a hierarchical manner. Additionally, our approach integrates global features from intermediate encoder stages to improve contextual understanding, while maintaining a lightweight structure to reduce complexity. This balance between performance and efficiency enables our method to achieve state-of-the-art results on benchmark datasets such as $PASCAL-5^i$ and $COCO-20^i$ in both 1-shot and 5-shot settings. Notably, our model with only 1.5 million parameters demonstrates competitive performance while overcoming limitations of existing methodologies. https://github.com/amirrezafateh/MSDNet
- Abstract(参考訳): セマンティックセグメンテーション(Semantic Semantic Segmentation)は、クエリイメージ内のオブジェクトのセグメンテーションという課題に、わずかに注釈付きの例で対処する。
しかし、従来の最先端手法の多くは、複雑な局所的な意味的特徴を捨てるか、高い計算複雑性に悩まされるかのどちらかである。
これらの課題に対処するために,トランスフォーマーアーキテクチャに基づくFew-shot Semantic Segmentationフレームワークを提案する。
提案手法では,空間変換器デコーダとコンテキストマスク生成モジュールを導入し,サポート画像とクエリ画像間の関係理解を改善する。
さらに,様々な解像度の特徴を階層的に取り入れることで,セグメンテーションマスクを洗練するためのマルチスケールデコーダを導入する。
さらに,本手法では,中間エンコーダ段階からのグローバルな特徴を統合し,コンテキスト理解を改善しつつ,複雑さを低減する軽量な構造を維持している。
この性能と効率のバランスは,1ショット設定と5ショット設定の両方で,$PASCAL-5^i$や$COCO-20^i$といったベンチマークデータセット上で,最先端の結果を得ることを可能にする。
特に、150万のパラメータしか持たない我々のモデルは、既存の方法論の限界を克服しつつ、競争性能を示している。
https://github.com/amirrezafateh/MSDNet
関連論文リスト
- MacFormer: Semantic Segmentation with Fine Object Boundaries [38.430631361558426]
新しいセマンティックセグメンテーションアーキテクチャであるMacFormer'を導入する。
まず、学習可能なエージェントトークンを使用することで、Mutual Agent Cross-Attention(MACA)メカニズムは、エンコーダ層とデコーダ層をまたいだ機能の双方向統合を効果的に実現する。
第二に、デコーダ内の周波数拡張モジュール(FEM)は高周波および低周波成分を活用して周波数領域の特徴を高める。
MacFormerはさまざまなネットワークアーキテクチャと互換性があり、ADE20KベンチマークとCityscapesの精度と効率の両方で既存のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-11T05:36:10Z) - Early Fusion of Features for Semantic Segmentation [10.362589129094975]
本稿では,効率的な画像分割を実現するために,分類器ネットワークとリバースHRNetアーキテクチャを統合する新しいセグメンテーションフレームワークを提案する。
私たちの手法は、Mapillary Vistas、Cityscapes、CamVid、COCO、PASCAL-VOC2012など、いくつかのベンチマークデータセットで厳格にテストされています。
その結果,画像解析における様々な応用の可能性を示し,高いセグメンテーション精度を実現する上で,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-08T22:58:06Z) - Hierarchical Dense Correlation Distillation for Few-Shot
Segmentation-Extended Abstract [47.85056124410376]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーションだけで見えないクラスをセグメンテーションするクラスに依存しないモデルを構築することを目的としている。
我々は、トランスアーキテクチャに基づく階層的分離マッチングネットワーク(HDMNet)マイニングピクセルレベルのサポート相関を設計する。
本稿では,列車セットの過度適合を低減し,粗い分解から意味対応を生かした相関蒸留を導入し,細粒度セグメンテーションを向上するマッチングモジュールを提案する。
論文 参考訳(メタデータ) (2023-06-27T08:10:20Z) - Hierarchical Dense Correlation Distillation for Few-Shot Segmentation [46.696051965252934]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーションだけで見えないクラスをセグメンテーションするクラスに依存しないモデルを構築することを目的としている。
我々は、トランスアーキテクチャに基づく階層的分離マッチングネットワーク(HDMNet)マイニングピクセルレベルのサポート相関を設計する。
本稿では,列車セットの過度適合を低減し,粗い分解から意味対応を生かした相関蒸留を導入し,細粒度セグメンテーションを向上するマッチングモジュールを提案する。
論文 参考訳(メタデータ) (2023-03-26T08:13:12Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - ColonFormer: An Efficient Transformer based Method for Colon Polyp
Segmentation [1.181206257787103]
ColonFormer はエンコーダとデコーダのアーキテクチャで、長距離セマンティック情報をモデル化できる。
ColonFormerは、すべてのベンチマークデータセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-05-17T16:34:04Z) - APANet: Adaptive Prototypes Alignment Network for Few-Shot Semantic
Segmentation [56.387647750094466]
Few-shotのセマンティックセマンティックセマンティクスは、指定されたクエリイメージに、ラベル付きサポートイメージのみで、新規クラスのオブジェクトをセグメントすることを目的としている。
ほとんどの高度なソリューションは、各クエリ機能を学習したクラス固有のプロトタイプにマッチさせることでセグメンテーションを実行するメトリクス学習フレームワークを利用している。
本稿では,クラス固有およびクラス非依存のプロトタイプを導入することで,適応型プロトタイプ表現を提案する。
論文 参考訳(メタデータ) (2021-11-24T04:38:37Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。