論文の概要: HFGD: High-level Feature Guided Decoder for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2303.08646v1
- Date: Wed, 15 Mar 2023 14:23:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 13:32:29.278983
- Title: HFGD: High-level Feature Guided Decoder for Semantic Segmentation
- Title(参考訳): HFGD: セマンティックセグメンテーションのための高レベル特徴ガイドデコーダ
- Authors: Ye Huang, Di Kang, Shenghua Gao, Wen Li, Lixin Duan
- Abstract要約: 分離された高レベル特徴を用いて低レベル特徴とアップサンプリングプロセスをガイドする高レベル特徴ガイドデコーダ(HFGD)を提案する。
HFGDは非常に効率的で効果的であり、機能マップを2の未確認出力ストライド(OS)にアップサンプリングし、精度を向上することができる。
- 参考スコア(独自算出の注目度): 57.063544728043304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Commonly used backbones for semantic segmentation, such as ResNet and
Swin-Transformer, have multiple stages for feature encoding. Simply using
high-resolution low-level feature maps from the early stages of the backbone to
directly refine the low-resolution high-level feature map is a common practice
of low-resolution feature map upsampling. However, the representation power of
the low-level features is generally worse than high-level features, thus
introducing ``noise" to the upsampling refinement. To address this issue, we
proposed High-level Feature Guided Decoder (HFGD), which uses isolated
high-level features to guide low-level features and upsampling process.
Specifically, the guidance is realized through carefully designed stop gradient
operations and class kernels. Now the class kernels co-evolve only with the
high-level features and are reused in the upsampling head to guide the training
process of the upsampling head. HFGD is very efficient and effective that can
also upsample the feature maps to a previously unseen output stride (OS) of 2
and still obtain accuracy gain. HFGD demonstrates state-of-the-art performance
on several benchmark datasets (e.g. Pascal Context, COCOStuff164k and
Cityscapes) with small FLOPs. The full code will be available at
https://github.com/edwardyehuang/HFGD.git.
- Abstract(参考訳): resnetやswin-transformerといったセマンティックセグメンテーションのバックボーンは、機能エンコーディングのために複数のステージを持つ。
単にバックボーンの初期から高分解能の低レベルフィーチャーマップを使用して低解像度の高レベルフィーチャーマップを直接洗練することは、低解像度のフィーチャーマップアップサンプリングの一般的なプラクティスである。
しかし、低レベルの特徴の表現力は一般的に高レベルな特徴よりも悪く、その結果「ノイズ」を導入する。
この問題に対処するために,分離された高レベル機能を用いて低レベル機能とアップサンプリングプロセスをガイドする高レベル特徴ガイドデコーダ(HFGD)を提案する。
具体的には、注意深く設計された停止勾配演算とクラスカーネルによってガイダンスが実現される。
現在、クラスカーネルはハイレベルな機能のみに対応し、アップサンプリングヘッドで再利用され、アップサンプリングヘッドのトレーニングプロセスがガイドされる。
HFGDは非常に効率的で効果的であり、機能マップを2の未確認出力ストライド(OS)にアップサンプリングし、精度を向上することができる。
HFGDは、小さなFLOPを持ついくつかのベンチマークデータセット(Pascal Context、COCOStuff164k、Cityscapesなど)で最先端のパフォーマンスを示す。
完全なコードはhttps://github.com/edwardyehuang/HFGD.gitで入手できる。
関連論文リスト
- LOBG:Less Overfitting for Better Generalization in Vision-Language Model [19.890629892640206]
視覚言語モデルのためのLOBGというフレームワークを提案する。
私たちはCLIPを使用して、オーバーフィッティングを引き起こす可能性のあるきめ細かいフォアグラウンド情報をフィルタリングし、基本的な視覚概念でプロンプトを導く。
提案手法は,最先端手法と比較して,一般化能力を大幅に向上し,過度な適合を緩和する。
論文 参考訳(メタデータ) (2024-10-14T08:06:21Z) - Revisiting Cephalometric Landmark Detection from the view of Human Pose
Estimation with Lightweight Super-Resolution Head [11.40242574405714]
提案手法は,MMPose として知られるヒューマノイドポーズ推定(HPE)に基づくベンチマークである。
パフォーマンスをさらに向上するために、フレームワーク内にアップスケーリング設計を導入します。
MICCAI CLDetection2023では,3つの指標で1位,残る1つで3位となった。
論文 参考訳(メタデータ) (2023-09-29T11:15:39Z) - Improving Point Cloud Based Place Recognition with Ranking-based Loss
and Large Batch Training [1.116812194101501]
本稿では,識別可能な3Dポイントクラウド記述子を計算するための,シンプルで効果的な学習手法を提案する。
本稿では,画像検索における最近の進歩を取り入れ,異なる平均精度近似に基づく損失関数の修正版を提案する。
論文 参考訳(メタデータ) (2022-03-02T09:29:28Z) - Cross-layer Navigation Convolutional Neural Network for Fine-grained
Visual Classification [21.223130735592516]
FGVCは、オブジェクトのサブクラスを同じスーパークラスで分類することを目的としている。
FGVCタスクにとって重要な解決策は、地域からターゲットの識別的微妙な情報を見つけることである。
機能融合のための階層間ナビゲーション畳み込みニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T08:38:27Z) - Channel DropBlock: An Improved Regularization Method for Fine-Grained
Visual Classification [58.07257910065007]
既存のアプローチは主に、識別的部分を見つけるための注意機構や、高度にパラメータ化された特徴を弱教師付きで抽出する特徴符号化アプローチを導入することでこの問題に対処している。
本研究では,CDB(Channel DropBlock)と呼ばれる軽量で効果的な正規化手法を提案する。
論文 参考訳(メタデータ) (2021-06-07T09:03:02Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z) - Weakly Supervised Attention Pyramid Convolutional Neural Network for
Fine-Grained Visual Classification [71.96618723152487]
注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。
AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。
追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-02-09T12:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。