論文の概要: HFGD: High-level Feature Guided Decoder for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2303.08646v2
- Date: Wed, 16 Aug 2023 12:15:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 17:34:11.929528
- Title: HFGD: High-level Feature Guided Decoder for Semantic Segmentation
- Title(参考訳): HFGD: セマンティックセグメンテーションのための高レベル特徴ガイドデコーダ
- Authors: Ye Huang, Di Kang, Shenghua Gao, Wen Li, Lixin Duan
- Abstract要約: 我々は,高精細な高精細な高精細な高精細な高精細な高精細な高精細な特徴のアップサンプリングを学習する際に,高精細な高精細な高精細な特徴をガイダンス(HFG)として使用することを提案する。
具体的には、クラストークンは、バックボーンから高レベルな機能のみをトレーニングする。
提案手法を,Pascal Context,COCO164k,Cityscapesの3つのベンチマークで評価した。
- 参考スコア(独自算出の注目度): 54.424062794490254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing pyramid-based upsamplers (e.g. SemanticFPN), although efficient,
usually produce less accurate results compared to dilation-based models when
using the same backbone. This is partially caused by the contaminated
high-level features since they are fused and fine-tuned with noisy low-level
features on limited data. To address this issue, we propose to use powerful
pretrained high-level features as guidance (HFG) when learning to upsample the
fine-grained low-level features. Specifically, the class tokens are trained
along with only the high-level features from the backbone. These class tokens
are reused by the upsampler for classification, guiding the upsampler features
to more discriminative backbone features. One key design of the HFG is to
protect the high-level features from being contaminated with proper
stop-gradient operations so that the backbone does not update according to the
gradient from the upsampler. To push the upper limit of HFG, we introduce an
context augmentation encoder (CAE) that can efficiently and effectively
operates on low-resolution high-level feature, resulting in improved
representation and thus better guidance. We evaluate the proposed method on
three benchmarks: Pascal Context, COCOStuff164k, and Cityscapes. Our method
achieves state-of-the-art results among methods that do not use extra training
data, demonstrating its effectiveness and generalization ability. The complete
code will be released
- Abstract(参考訳): 既存のピラミッドベースのアップサンプラー(例:セマンティックFPN)は効率的ではあるが、同じバックボーンを使用する場合に比べて精度が低い。
これは、限られたデータでノイズの少ない低レベル機能と融合して微調整されているため、汚染された高レベル機能によって部分的に引き起こされる。
この問題に対処するために,我々は,きめ細かな低レベル機能のサンプル化を学ぶ際に,強力な事前学習された高レベル機能をガイダンス(hfg)として用いることを提案する。
具体的には、クラストークンは、バックボーンから高レベルな機能のみをトレーニングする。
これらのクラストークンは、upsamplerによって分類のために再利用され、upsamplerの特徴をより識別的なバックボーン機能に導く。
HFGの鍵となる設計は、バックボーンがアップサンプラーからの勾配に応じて更新されないように、ハイレベルな特徴が適切な停止段階の操作で汚染されることを防ぐことである。
HFGの上限を押し上げるために、低解像度の高レベル特徴に対して効率よく効果的に操作できる文脈拡張エンコーダ(CAE)を導入する。
提案手法をPascal Context,COCOStuff164k,Cityscapesの3つのベンチマークで評価した。
本手法は,余分なトレーニングデータを使用しない手法において,その有効性と一般化能力を示す。
完全なコードがリリースされる
関連論文リスト
- LOBG:Less Overfitting for Better Generalization in Vision-Language Model [19.890629892640206]
視覚言語モデルのためのLOBGというフレームワークを提案する。
私たちはCLIPを使用して、オーバーフィッティングを引き起こす可能性のあるきめ細かいフォアグラウンド情報をフィルタリングし、基本的な視覚概念でプロンプトを導く。
提案手法は,最先端手法と比較して,一般化能力を大幅に向上し,過度な適合を緩和する。
論文 参考訳(メタデータ) (2024-10-14T08:06:21Z) - Revisiting Cephalometric Landmark Detection from the view of Human Pose
Estimation with Lightweight Super-Resolution Head [11.40242574405714]
提案手法は,MMPose として知られるヒューマノイドポーズ推定(HPE)に基づくベンチマークである。
パフォーマンスをさらに向上するために、フレームワーク内にアップスケーリング設計を導入します。
MICCAI CLDetection2023では,3つの指標で1位,残る1つで3位となった。
論文 参考訳(メタデータ) (2023-09-29T11:15:39Z) - Improving Point Cloud Based Place Recognition with Ranking-based Loss
and Large Batch Training [1.116812194101501]
本稿では,識別可能な3Dポイントクラウド記述子を計算するための,シンプルで効果的な学習手法を提案する。
本稿では,画像検索における最近の進歩を取り入れ,異なる平均精度近似に基づく損失関数の修正版を提案する。
論文 参考訳(メタデータ) (2022-03-02T09:29:28Z) - Cross-layer Navigation Convolutional Neural Network for Fine-grained
Visual Classification [21.223130735592516]
FGVCは、オブジェクトのサブクラスを同じスーパークラスで分類することを目的としている。
FGVCタスクにとって重要な解決策は、地域からターゲットの識別的微妙な情報を見つけることである。
機能融合のための階層間ナビゲーション畳み込みニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T08:38:27Z) - Channel DropBlock: An Improved Regularization Method for Fine-Grained
Visual Classification [58.07257910065007]
既存のアプローチは主に、識別的部分を見つけるための注意機構や、高度にパラメータ化された特徴を弱教師付きで抽出する特徴符号化アプローチを導入することでこの問題に対処している。
本研究では,CDB(Channel DropBlock)と呼ばれる軽量で効果的な正規化手法を提案する。
論文 参考訳(メタデータ) (2021-06-07T09:03:02Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z) - Weakly Supervised Attention Pyramid Convolutional Neural Network for
Fine-Grained Visual Classification [71.96618723152487]
注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。
AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。
追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-02-09T12:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。