論文の概要: HFGD: High-level Feature Guided Decoder for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2303.08646v1
- Date: Wed, 15 Mar 2023 14:23:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 13:32:29.278983
- Title: HFGD: High-level Feature Guided Decoder for Semantic Segmentation
- Title(参考訳): HFGD: セマンティックセグメンテーションのための高レベル特徴ガイドデコーダ
- Authors: Ye Huang, Di Kang, Shenghua Gao, Wen Li, Lixin Duan
- Abstract要約: 分離された高レベル特徴を用いて低レベル特徴とアップサンプリングプロセスをガイドする高レベル特徴ガイドデコーダ(HFGD)を提案する。
HFGDは非常に効率的で効果的であり、機能マップを2の未確認出力ストライド(OS)にアップサンプリングし、精度を向上することができる。
- 参考スコア(独自算出の注目度): 57.063544728043304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Commonly used backbones for semantic segmentation, such as ResNet and
Swin-Transformer, have multiple stages for feature encoding. Simply using
high-resolution low-level feature maps from the early stages of the backbone to
directly refine the low-resolution high-level feature map is a common practice
of low-resolution feature map upsampling. However, the representation power of
the low-level features is generally worse than high-level features, thus
introducing ``noise" to the upsampling refinement. To address this issue, we
proposed High-level Feature Guided Decoder (HFGD), which uses isolated
high-level features to guide low-level features and upsampling process.
Specifically, the guidance is realized through carefully designed stop gradient
operations and class kernels. Now the class kernels co-evolve only with the
high-level features and are reused in the upsampling head to guide the training
process of the upsampling head. HFGD is very efficient and effective that can
also upsample the feature maps to a previously unseen output stride (OS) of 2
and still obtain accuracy gain. HFGD demonstrates state-of-the-art performance
on several benchmark datasets (e.g. Pascal Context, COCOStuff164k and
Cityscapes) with small FLOPs. The full code will be available at
https://github.com/edwardyehuang/HFGD.git.
- Abstract(参考訳): resnetやswin-transformerといったセマンティックセグメンテーションのバックボーンは、機能エンコーディングのために複数のステージを持つ。
単にバックボーンの初期から高分解能の低レベルフィーチャーマップを使用して低解像度の高レベルフィーチャーマップを直接洗練することは、低解像度のフィーチャーマップアップサンプリングの一般的なプラクティスである。
しかし、低レベルの特徴の表現力は一般的に高レベルな特徴よりも悪く、その結果「ノイズ」を導入する。
この問題に対処するために,分離された高レベル機能を用いて低レベル機能とアップサンプリングプロセスをガイドする高レベル特徴ガイドデコーダ(HFGD)を提案する。
具体的には、注意深く設計された停止勾配演算とクラスカーネルによってガイダンスが実現される。
現在、クラスカーネルはハイレベルな機能のみに対応し、アップサンプリングヘッドで再利用され、アップサンプリングヘッドのトレーニングプロセスがガイドされる。
HFGDは非常に効率的で効果的であり、機能マップを2の未確認出力ストライド(OS)にアップサンプリングし、精度を向上することができる。
HFGDは、小さなFLOPを持ついくつかのベンチマークデータセット(Pascal Context、COCOStuff164k、Cityscapesなど)で最先端のパフォーマンスを示す。
完全なコードはhttps://github.com/edwardyehuang/HFGD.gitで入手できる。
関連論文リスト
- Improving Semantic Segmentation in Transformers using Hierarchical
Inter-Level Attention [68.7861229363712]
Hierarchical Inter-Level Attention (HILA)は、異なるレベルの機能間のボトムアップとトップダウン更新をキャプチャするアテンションベースの手法である。
HILAは階層型ヴィジュアルトランスフォーマーアーキテクチャを拡張し、上位と下位の機能間の局所的な接続をバックボーンエンコーダに追加する。
より少ないパラメータとFLOPSを用いたセマンティックセグメンテーションでは,精度が顕著に向上した。
論文 参考訳(メタデータ) (2022-07-05T15:47:31Z) - Learning Implicit Feature Alignment Function for Semantic Segmentation [51.36809814890326]
Implicit Feature Alignment Function (IFA)は、暗黙の神経表現の急速に拡大するトピックにインスパイアされている。
IFAは機能マップを異なるレベルで暗黙的に整列し、任意の解像度でセグメンテーションマップを生成することができることを示す。
提案手法は,様々なアーキテクチャの改善と組み合わせて,一般的なベンチマークにおける最先端の精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-06-17T09:40:14Z) - Cross-layer Navigation Convolutional Neural Network for Fine-grained
Visual Classification [21.223130735592516]
FGVCは、オブジェクトのサブクラスを同じスーパークラスで分類することを目的としている。
FGVCタスクにとって重要な解決策は、地域からターゲットの識別的微妙な情報を見つけることである。
機能融合のための階層間ナビゲーション畳み込みニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T08:38:27Z) - UltraSR: Spatial Encoding is a Missing Key for Implicit Image
Function-based Arbitrary-Scale Super-Resolution [74.82282301089994]
本研究では,暗黙的イメージ関数に基づく,シンプルで効果的な新しいネットワーク設計であるUltraSRを提案する。
空間符号化は,次の段階の高精度暗黙的画像機能に対する欠落鍵であることを示す。
UltraSRは、すべての超解像スケールでDIV2Kベンチマークに最新のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2021-03-23T17:36:42Z) - Densely Nested Top-Down Flows for Salient Object Detection [137.74130900326833]
本稿では,物体検出におけるトップダウンモデリングの役割を再考する。
密度の高いトップダウンフロー(DNTDF)ベースのフレームワークを設計する。
DNTDFのすべての段階において、高いレベルの特徴はプログレッシブ圧縮ショートカットパス(PCSP)を介して読み込まれる。
論文 参考訳(メタデータ) (2021-02-18T03:14:02Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。