論文の概要: IncepFormer: Efficient Inception Transformer with Pyramid Pooling for
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2212.03035v1
- Date: Tue, 6 Dec 2022 15:08:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 17:07:42.795100
- Title: IncepFormer: Efficient Inception Transformer with Pyramid Pooling for
Semantic Segmentation
- Title(参考訳): IncepFormer: セマンティックセグメンテーションのためのピラミッドプール付き効率的なインセプショントランス
- Authors: Lihua Fu, Haoyue Tian, Xiangping Bryce Zhai, Pan Gao, Xiaojiang Peng
- Abstract要約: IncepFormerは強力なセマンティックセグメンテーションアーキテクチャである。
グローバルなコンテキストと詳細なローカライゼーション機能を同時に取得する。
精度と速度の両面で最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 18.195826175511552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation usually benefits from global contexts, fine
localisation information, multi-scale features, etc. To advance
Transformer-based segmenters with these aspects, we present a simple yet
powerful semantic segmentation architecture, termed as IncepFormer. IncepFormer
has two critical contributions as following. First, it introduces a novel
pyramid structured Transformer encoder which harvests global context and fine
localisation features simultaneously. These features are concatenated and fed
into a convolution layer for final per-pixel prediction. Second, IncepFormer
integrates an Inception-like architecture with depth-wise convolutions, and a
light-weight feed-forward module in each self-attention layer, efficiently
obtaining rich local multi-scale object features. Extensive experiments on five
benchmarks show that our IncepFormer is superior to state-of-the-art methods in
both accuracy and speed, e.g., 1) our IncepFormer-S achieves 47.7% mIoU on
ADE20K which outperforms the existing best method by 1% while only costs half
parameters and fewer FLOPs. 2) Our IncepFormer-B finally achieves 82.0% mIoU on
Cityscapes dataset with 39.6M parameters. Code is
available:github.com/shendu0321/IncepFormer.
- Abstract(参考訳): セマンティックセグメンテーションは通常、グローバルコンテキスト、詳細なローカライゼーション情報、マルチスケール機能などの恩恵を受ける。
このような側面でTransformerベースのセグメンタを前進させるため,IncepFormerと呼ばれるシンプルなセグメンテーションアーキテクチャを提案する。
incepformerには以下の2つの重要な貢献がある。
まず,グローバルコンテキストと細かな局所化を同時に行う新しいピラミッド構造トランスフォーマエンコーダを導入する。
これらの特徴は連結され、最終ピクセル当たりの予測のために畳み込み層に入力される。
第二に、incepformerはインセプションのようなアーキテクチャと奥行き方向の畳み込み、そして各セルフアテンション層に軽量フィードフォワードモジュールを統合し、リッチな局所的マルチスケールオブジェクトの特徴を効率的に得る。
5つのベンチマークの大規模な実験により、IncepFormerは精度と速度の両面で最先端の手法よりも優れていることが示された。
1) inepformer-s は ade20k 上で 47.7% の miou を達成し,既存の最良メソッドを 1% で上回っています。
2) CeepFormer-Bは最終的に39.6Mパラメータを持つCityscapesデータセットで82.0% mIoUを達成した。
コードはgithub.com/shendu0321/incepformer。
関連論文リスト
- MSDNet: Multi-Scale Decoder for Few-Shot Semantic Segmentation via Transformer-Guided Prototyping [1.1557852082644071]
少数の例だけで、クエリイメージ内のオブジェクトをセグメント化するという課題に、Semanticは対処している。
本稿では,トランスアーキテクチャに基づく新しいFew-shot Semanticフレームワークを提案する。
150万のパラメータしか持たないモデルでは,既存の手法の限界を克服しつつ,競争性能を実証している。
論文 参考訳(メタデータ) (2024-09-17T16:14:03Z) - Positional Prompt Tuning for Efficient 3D Representation Learning [16.25423192020736]
ポイントクラウド分析は大きな発展を遂げており、ポイントクラウドの分類やセグメンテーションなど、複数のダウンストリームタスクでうまく機能している。
トランスフォーマーアーキテクチャにおける位置符号化構造の単純さを意識して、高次元部分としての位置符号化と、マルチスケール情報を提供するパッチエンコーダを重要視する。
ScanObjectNN OBJ_BGデータセットの95.01%の精度など、いくつかの主流データセットにおいて、PEFTタスクの提案した手法は、トレーニング用のパラメータの1.05%しか持たない。
論文 参考訳(メタデータ) (2024-08-21T12:18:34Z) - MacFormer: Semantic Segmentation with Fine Object Boundaries [38.430631361558426]
新しいセマンティックセグメンテーションアーキテクチャであるMacFormer'を導入する。
まず、学習可能なエージェントトークンを使用することで、Mutual Agent Cross-Attention(MACA)メカニズムは、エンコーダ層とデコーダ層をまたいだ機能の双方向統合を効果的に実現する。
第二に、デコーダ内の周波数拡張モジュール(FEM)は高周波および低周波成分を活用して周波数領域の特徴を高める。
MacFormerはさまざまなネットワークアーキテクチャと互換性があり、ADE20KベンチマークとCityscapesの精度と効率の両方で既存のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-11T05:36:10Z) - Prompt-Matched Semantic Segmentation [96.99924127527002]
本研究の目的は、事前学習した基礎モデルを、画像意味セグメンテーションの下流の様々なタスクに効果的に適応する方法を検討することである。
本稿では,タスク指向のチューニングに適応的に視覚的プロンプトを生成するとともに,基礎モデルの本来の構造を維持できる新しい階層間プロンプトマッチングフレームワークを提案する。
次に、Semantic-aware Prompt Matcherと呼ばれる軽量モジュールを導入し、2つのステージ間で階層的に補間し、各タスクに対して適切なプロンプトを学習する。
論文 参考訳(メタデータ) (2022-08-22T09:12:53Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers [79.09486658392626]
OSFormerは、camouflaged instance segmentation (CIS)のためのワンステージトランスフォーマーフレームワークである
位置認識変換器(LST)を設計し、位置ラベルとインスタンス認識パラメータを求める。
我々は、LSTエンコーダとCNNバックボーンから様々なコンテキスト情報を統合するための粗大な融合(CFF)を開発する。
論文 参考訳(メタデータ) (2022-07-05T18:32:21Z) - SegFormer: Simple and Efficient Design for Semantic Segmentation with
Transformers [79.646577541655]
我々は,トランスフォーマーを軽量多層認識(MLP)デコーダと統合するセマンティックセグメンテーションフレームワークであるSegFormerを提案する。
SegFormerは、マルチスケール機能を出力する、新しく構造化されたエンコーダで構成されている。
提案するデコーダは,異なるレイヤからの情報を集約し,局所的な注意とグローバルな注意の両方を強力な表現に結合する。
論文 参考訳(メタデータ) (2021-05-31T17:59:51Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - CARAFE++: Unified Content-Aware ReAssembly of FEatures [132.49582482421246]
この目標を達成するために、ユニバーサルで軽量で高効率なオペレータであるContent-Aware ReAssembly of FEatures(CARAFE++)を提案します。
CARAFE++は、インスタンス固有のコンテンツ認識処理を可能にするアダプティブカーネルをオンザフライで生成する。
計算のオーバーヘッドが無視できるすべてのタスクにおいて、一貫性と実質的な利益を示しています。
論文 参考訳(メタデータ) (2020-12-07T07:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。