論文の概要: High-level Feature Guided Decoding for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2303.08646v3
- Date: Mon, 27 Nov 2023 21:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 04:01:33.060534
- Title: High-level Feature Guided Decoding for Semantic Segmentation
- Title(参考訳): セマンティクスセグメンテーションのための高レベル特徴誘導復号
- Authors: Ye Huang, Di Kang, Shenghua Gao, Wen Li, Lixin Duan
- Abstract要約: そこで本稿では,アップサンプラーが頑健な結果を得るためのガイダンス(HFG)として,強力な事前学習高レベル機能を提案する。
具体的には、バックボーンの高レベルな機能はクラストークンのトレーニングに使用され、クラストークンはクラス分類のためにアップサンプラーによって再利用される。
HFGの上限を押し上げるために、低解像度の高レベル特徴に対して効率よく効果的に操作できる文脈拡張エンコーダ(CAE)を導入する。
- 参考スコア(独自算出の注目度): 54.424062794490254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing pyramid-based upsamplers (e.g. SemanticFPN), although efficient,
usually produce less accurate results compared to dilation-based models when
using the same backbone. This is partially caused by the contaminated
high-level features since they are fused and fine-tuned with noisy low-level
features on limited data. To address this issue, we propose to use powerful
pre-trained high-level features as guidance (HFG) so that the upsampler can
produce robust results. Specifically, \emph{only} the high-level features from
the backbone are used to train the class tokens, which are then reused by the
upsampler for classification, guiding the upsampler features to more
discriminative backbone features. One crucial design of the HFG is to protect
the high-level features from being contaminated by using proper stop-gradient
operations so that the backbone does not update according to the noisy gradient
from the upsampler. To push the upper limit of HFG, we introduce a context
augmentation encoder (CAE) that can efficiently and effectively operate on the
low-resolution high-level feature, resulting in improved representation and
thus better guidance. We named our complete solution as the High-Level Features
Guided Decoder (HFGD). We evaluate the proposed HFGD on three benchmarks:
Pascal Context, COCOStuff164k, and Cityscapes. HFGD achieves state-of-the-art
results among methods that do not use extra training data, demonstrating its
effectiveness and generalization ability.
- Abstract(参考訳): 既存のピラミッドベースのアップサンプラー(例:セマンティックFPN)は効率的ではあるが、同じバックボーンを使用する場合に比べて精度が低い。
これは、限られたデータでノイズの少ない低レベル機能と融合して微調整されているため、汚染された高レベル機能によって部分的に引き起こされる。
この問題に対処するため,我々は,事前学習された高レベル機能を指導(hfg)として活用し,アップサンプラーが堅牢な結果が得られるようにすることを提案する。
具体的には、 \emph{only} バックボーンのハイレベルな機能は、クラストークンのトレーニングに使用され、upsamplerによって分類に再利用され、upsamplerの機能をより識別可能なbackbone機能に導く。
HFGの1つの重要な設計は、バックボーンがアップサンプラーからのノイズ勾配に従って更新されないように、適切な停止段階の操作により、ハイレベルな特徴が汚染されることを防ぐことである。
HFGの上限を押し上げるために、低解像度の高レベル特徴に対して効率よく効果的に操作できる文脈拡張エンコーダ(CAE)を導入する。
我々は完全なソリューションをHigh-Level Features Guided Decoder (HFGD)と名付けた。
提案したHFGDをPascal Context,COCOStuff164k,Cityscapesの3つのベンチマークで評価した。
HFGDは、余分なトレーニングデータを使用しず、その有効性と一般化能力を示す手法の中で、最先端の結果を達成する。
関連論文リスト
- LOBG:Less Overfitting for Better Generalization in Vision-Language Model [19.890629892640206]
視覚言語モデルのためのLOBGというフレームワークを提案する。
私たちはCLIPを使用して、オーバーフィッティングを引き起こす可能性のあるきめ細かいフォアグラウンド情報をフィルタリングし、基本的な視覚概念でプロンプトを導く。
提案手法は,最先端手法と比較して,一般化能力を大幅に向上し,過度な適合を緩和する。
論文 参考訳(メタデータ) (2024-10-14T08:06:21Z) - Revisiting Cephalometric Landmark Detection from the view of Human Pose
Estimation with Lightweight Super-Resolution Head [11.40242574405714]
提案手法は,MMPose として知られるヒューマノイドポーズ推定(HPE)に基づくベンチマークである。
パフォーマンスをさらに向上するために、フレームワーク内にアップスケーリング設計を導入します。
MICCAI CLDetection2023では,3つの指標で1位,残る1つで3位となった。
論文 参考訳(メタデータ) (2023-09-29T11:15:39Z) - Improving Point Cloud Based Place Recognition with Ranking-based Loss
and Large Batch Training [1.116812194101501]
本稿では,識別可能な3Dポイントクラウド記述子を計算するための,シンプルで効果的な学習手法を提案する。
本稿では,画像検索における最近の進歩を取り入れ,異なる平均精度近似に基づく損失関数の修正版を提案する。
論文 参考訳(メタデータ) (2022-03-02T09:29:28Z) - Cross-layer Navigation Convolutional Neural Network for Fine-grained
Visual Classification [21.223130735592516]
FGVCは、オブジェクトのサブクラスを同じスーパークラスで分類することを目的としている。
FGVCタスクにとって重要な解決策は、地域からターゲットの識別的微妙な情報を見つけることである。
機能融合のための階層間ナビゲーション畳み込みニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T08:38:27Z) - Channel DropBlock: An Improved Regularization Method for Fine-Grained
Visual Classification [58.07257910065007]
既存のアプローチは主に、識別的部分を見つけるための注意機構や、高度にパラメータ化された特徴を弱教師付きで抽出する特徴符号化アプローチを導入することでこの問題に対処している。
本研究では,CDB(Channel DropBlock)と呼ばれる軽量で効果的な正規化手法を提案する。
論文 参考訳(メタデータ) (2021-06-07T09:03:02Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z) - Weakly Supervised Attention Pyramid Convolutional Neural Network for
Fine-Grained Visual Classification [71.96618723152487]
注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。
AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。
追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-02-09T12:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。