Fugu-MT 論文翻訳(概要): High-level Feature Guided Decoding for Semantic Segmentation

論文の概要: High-level Feature Guided Decoding for Semantic Segmentation

arxiv url: http://arxiv.org/abs/2303.08646v3
Date: Mon, 27 Nov 2023 21:58:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 04:01:33.060534
Title: High-level Feature Guided Decoding for Semantic Segmentation
Title（参考訳）: セマンティクスセグメンテーションのための高レベル特徴誘導復号
Authors: Ye Huang, Di Kang, Shenghua Gao, Wen Li, Lixin Duan
Abstract要約: そこで本稿では,アップサンプラーが頑健な結果を得るためのガイダンス(HFG)として,強力な事前学習高レベル機能を提案する。具体的には、バックボーンの高レベルな機能はクラストークンのトレーニングに使用され、クラストークンはクラス分類のためにアップサンプラーによって再利用される。 HFGの上限を押し上げるために、低解像度の高レベル特徴に対して効率よく効果的に操作できる文脈拡張エンコーダ(CAE)を導入する。
参考スコア（独自算出の注目度）: 54.424062794490254
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing pyramid-based upsamplers (e.g. SemanticFPN), although efficient, usually produce less accurate results compared to dilation-based models when using the same backbone. This is partially caused by the contaminated high-level features since they are fused and fine-tuned with noisy low-level features on limited data. To address this issue, we propose to use powerful pre-trained high-level features as guidance (HFG) so that the upsampler can produce robust results. Specifically, \emph{only} the high-level features from the backbone are used to train the class tokens, which are then reused by the upsampler for classification, guiding the upsampler features to more discriminative backbone features. One crucial design of the HFG is to protect the high-level features from being contaminated by using proper stop-gradient operations so that the backbone does not update according to the noisy gradient from the upsampler. To push the upper limit of HFG, we introduce a context augmentation encoder (CAE) that can efficiently and effectively operate on the low-resolution high-level feature, resulting in improved representation and thus better guidance. We named our complete solution as the High-Level Features Guided Decoder (HFGD). We evaluate the proposed HFGD on three benchmarks: Pascal Context, COCOStuff164k, and Cityscapes. HFGD achieves state-of-the-art results among methods that do not use extra training data, demonstrating its effectiveness and generalization ability.
Abstract（参考訳）: 既存のピラミッドベースのアップサンプラー(例:セマンティックFPN)は効率的ではあるが、同じバックボーンを使用する場合に比べて精度が低い。これは、限られたデータでノイズの少ない低レベル機能と融合して微調整されているため、汚染された高レベル機能によって部分的に引き起こされる。この問題に対処するため,我々は,事前学習された高レベル機能を指導(hfg)として活用し,アップサンプラーが堅牢な結果が得られるようにすることを提案する。具体的には、 \emph{only} バックボーンのハイレベルな機能は、クラストークンのトレーニングに使用され、upsamplerによって分類に再利用され、upsamplerの機能をより識別可能なbackbone機能に導く。 HFGの1つの重要な設計は、バックボーンがアップサンプラーからのノイズ勾配に従って更新されないように、適切な停止段階の操作により、ハイレベルな特徴が汚染されることを防ぐことである。 HFGの上限を押し上げるために、低解像度の高レベル特徴に対して効率よく効果的に操作できる文脈拡張エンコーダ(CAE)を導入する。我々は完全なソリューションをHigh-Level Features Guided Decoder (HFGD)と名付けた。提案したHFGDをPascal Context,COCOStuff164k,Cityscapesの3つのベンチマークで評価した。 HFGDは、余分なトレーニングデータを使用しず、その有効性と一般化能力を示す手法の中で、最先端の結果を達成する。

関連論文リスト

Hi-ZFO: Hierarchical Zeroth- and First-Order LLM Fine-Tuning via Importance-Guided Tensor Selection [4.808936079900314]
FO勾配をZO推定と相乗化するためにtextbfHi-ZFO (textbfHierarchical textbfZeroth- and textbfFirst-textbfOrder optimization) を提案する。また,Hi-ZFOはトレーニング時間を大幅に短縮しつつ,優れた性能を実現していることを示す。
論文参考訳（メタデータ） (2026-01-09T03:20:54Z)
CEM-FBGTinyDet: Context-Enhanced Foreground Balance with Gradient Tuning for tiny Objects [2.321156185872456]
マルチスケール機能拡張と適応最適化を統合した新しいアーキテクチャであるE-FPN-BSを提案する。第一に、私たちのContext Enhancement Module(CEM)は、効率的なグローバルな融合のために高レベルな特徴を整列し、圧縮するためにデュアルブランチ処理を採用している。第2に、フォアグラウンド-バックグラウンド分離モジュール(FBSM)は、識別領域を動的に増幅する空間ゲーティングマスクを生成する。
論文参考訳（メタデータ） (2025-06-11T16:13:38Z)
CPDR: Towards Highly-Efficient Salient Object Detection via Crossed Post-decoder Refinement [3.5321836333805425]
我々は,アテンションダウンサンプルフュージョン (ADF) を導入し,アテンションアテンション・アテンション・アテンション・メカニズムと高レベル表現によるアテンション・マップを用いて低レベル特徴を洗練する。また,ADFとAUFを併用したDACF(Dual Attention Cross Fusion)を提案し,性能を維持しながらパラメータ数を削減した。 5つのベンチマークデータセットの実験により、我々の手法は従来の最先端手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-01-11T05:41:05Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
LOBG:Less Overfitting for Better Generalization in Vision-Language Model [19.890629892640206]
視覚言語モデルのためのLOBGというフレームワークを提案する。私たちはCLIPを使用して、オーバーフィッティングを引き起こす可能性のあるきめ細かいフォアグラウンド情報をフィルタリングし、基本的な視覚概念でプロンプトを導く。提案手法は,最先端手法と比較して,一般化能力を大幅に向上し,過度な適合を緩和する。
論文参考訳（メタデータ） (2024-10-14T08:06:21Z)
Source-Free Domain Adaptive Object Detection with Semantics Compensation [54.00183496587841]
Weak-to-strong Semantics Compensation (WSCo)を導入する。 WSCoは、クラス関連セマンティクスを補う。 WSCoは一般的なプラグインとして実装することができ、既存のSFODパイプラインと容易に統合できます。
論文参考訳（メタデータ） (2024-10-07T23:32:06Z)
Revisiting Cephalometric Landmark Detection from the view of Human Pose Estimation with Lightweight Super-Resolution Head [11.40242574405714]
提案手法は,MMPose として知られるヒューマノイドポーズ推定(HPE)に基づくベンチマークである。パフォーマンスをさらに向上するために、フレームワーク内にアップスケーリング設計を導入します。 MICCAI CLDetection2023では,3つの指標で1位,残る1つで3位となった。
論文参考訳（メタデータ） (2023-09-29T11:15:39Z)
Improving Point Cloud Based Place Recognition with Ranking-based Loss and Large Batch Training [1.116812194101501]
本稿では,識別可能な3Dポイントクラウド記述子を計算するための,シンプルで効果的な学習手法を提案する。本稿では,画像検索における最近の進歩を取り入れ,異なる平均精度近似に基づく損失関数の修正版を提案する。
論文参考訳（メタデータ） (2022-03-02T09:29:28Z)
Cross-layer Navigation Convolutional Neural Network for Fine-grained Visual Classification [21.223130735592516]
FGVCは、オブジェクトのサブクラスを同じスーパークラスで分類することを目的としている。 FGVCタスクにとって重要な解決策は、地域からターゲットの識別的微妙な情報を見つけることである。機能融合のための階層間ナビゲーション畳み込みニューラルネットワークを提案する。
論文参考訳（メタデータ） (2021-06-21T08:38:27Z)
Channel DropBlock: An Improved Regularization Method for Fine-Grained Visual Classification [58.07257910065007]
既存のアプローチは主に、識別的部分を見つけるための注意機構や、高度にパラメータ化された特徴を弱教師付きで抽出する特徴符号化アプローチを導入することでこの問題に対処している。本研究では,CDB(Channel DropBlock)と呼ばれる軽量で効果的な正規化手法を提案する。
論文参考訳（メタデータ） (2021-06-07T09:03:02Z)
Adversarial Feature Augmentation and Normalization for Visual Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文参考訳（メタデータ） (2021-03-22T20:36:34Z)
DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文参考訳（メタデータ） (2020-11-03T07:49:15Z)
Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文参考訳（メタデータ） (2020-08-04T10:41:32Z)
Weakly Supervised Attention Pyramid Convolutional Neural Network for Fine-Grained Visual Classification [71.96618723152487]
注意ピラミッド畳み込みニューラルネットワーク(AP-CNN)について紹介する。 AP-CNNは高レベルのセマンティックと低レベルの詳細な特徴表現の両方を学ぶ。追加のバウンディングボックス/パートアノテーションを必要とせずに、エンドツーエンドでトレーニングすることができる。
論文参考訳（メタデータ） (2020-02-09T12:33:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。