論文の概要: GSTO: Gated Scale-Transfer Operation for Multi-Scale Feature Learning in
Pixel Labeling
- arxiv url: http://arxiv.org/abs/2005.13363v2
- Date: Sun, 28 Jun 2020 13:51:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 09:26:19.676604
- Title: GSTO: Gated Scale-Transfer Operation for Multi-Scale Feature Learning in
Pixel Labeling
- Title(参考訳): GSTO:Pixel Labelingにおけるマルチスケール特徴学習のためのGated Scale-Transfer Operation
- Authors: Zhuoying Wang and Yongtao Wang and Zhi Tang and Yangyan Li and Ying
Chen and Haibin Ling and Weisi Lin
- Abstract要約: 本稿では,空間教師付き機能を他のスケールに適切に移行するためのGated Scale-Transfer Operation (GSTO)を提案する。
GSTOをHRNetにプラグインすることで、ピクセルラベリングの強力なバックボーンが得られます。
実験の結果,GSTOはマルチスケール機能アグリゲーションモジュールの性能を大幅に向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 92.90448357454274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing CNN-based methods for pixel labeling heavily depend on multi-scale
features to meet the requirements of both semantic comprehension and detail
preservation. State-of-the-art pixel labeling neural networks widely exploit
conventional scale-transfer operations, i.e., up-sampling and down-sampling to
learn multi-scale features. In this work, we find that these operations lead to
scale-confused features and suboptimal performance because they are
spatial-invariant and directly transit all feature information cross scales
without spatial selection. To address this issue, we propose the Gated
Scale-Transfer Operation (GSTO) to properly transit spatial-filtered features
to another scale. Specifically, GSTO can work either with or without extra
supervision. Unsupervised GSTO is learned from the feature itself while the
supervised one is guided by the supervised probability matrix. Both forms of
GSTO are lightweight and plug-and-play, which can be flexibly integrated into
networks or modules for learning better multi-scale features. In particular, by
plugging GSTO into HRNet, we get a more powerful backbone (namely GSTO-HRNet)
for pixel labeling, and it achieves new state-of-the-art results on the COCO
benchmark for human pose estimation and other benchmarks for semantic
segmentation including Cityscapes, LIP and Pascal Context, with negligible
extra computational cost. Moreover, experiment results demonstrate that GSTO
can also significantly boost the performance of multi-scale feature aggregation
modules like PPM and ASPP. Code will be made available at
https://github.com/VDIGPKU/GSTO.
- Abstract(参考訳): 既存のCNNベースのピクセルラベリング手法は、意味理解と詳細保存の両方の要件を満たすため、マルチスケールの機能に大きく依存している。
最先端のピクセルラベリングニューラルネットワークは、従来のスケール転送操作、すなわちアップサンプリングとダウンサンプリングを利用してマルチスケールの機能を学ぶ。
本研究では,これらの操作が空間不変であり,空間選択を伴わずにすべての特徴情報をクロススケールで直接伝達するので,拡張性に富んだ特徴や準最適性能をもたらすことを示す。
この問題に対処するために,空間フィルタの機能を他のスケールに適切に移行するためのGated Scale-Transfer Operation (GSTO)を提案する。
具体的には、GSTOは、追加の監督の有無にかかわらず、機能することができる。
教師なしGSTOは特徴自体から学習され、教師なしGSTOは教師付き確率行列によってガイドされる。
GSTOのどちらの形式も軽量でプラグ&プレイで、ネットワークやモジュールに柔軟に統合して、より優れたマルチスケール機能を学ぶことができる。
特に、GSTOをHRNetにプラグインすることで、ピクセルラベリングのためのより強力なバックボーン(GSTO-HRNet)が得られ、人間のポーズ推定のためのCOCOベンチマークや、Cityscapes、LIP、Pascal Contextなどのセマンティックセグメンテーションのためのベンチマークで、無視できない余分な計算コストで、新しい最先端の結果が得られる。
さらに,実験結果から,GSTOはPPMやASPPといったマルチスケール機能アグリゲーションモジュールの性能を大幅に向上させることができることが示された。
コードはhttps://github.com/VDIGPKU/GSTOで公開される。
関連論文リスト
- ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple
yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文 参考訳(メタデータ) (2023-07-23T15:17:45Z) - Feature Aggregation and Propagation Network for Camouflaged Object
Detection [42.33180748293329]
カモフラージュされたオブジェクト検出(COD)は、環境に埋め込まれたカモフラージュされたオブジェクトを検出し、分離することを目的としている。
いくつかのCOD法が開発されているが, 前景オブジェクトと背景環境との固有の類似性により, 依然として不満足な性能に悩まされている。
カモフラージュされた物体検出のための新しい特徴集約・伝播ネットワーク(FAP-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:54:28Z) - Transformer Scale Gate for Semantic Segmentation [53.27673119360868]
Transformer Scale Gate (TSG) は、視覚変換器の自己および横断的な注意をスケール選択に活用する。
Pascal ContextとADE20Kデータセットに関する我々の実験は、我々の特徴選択戦略が一貫した利益を達成することを示す。
論文 参考訳(メタデータ) (2022-05-14T13:11:39Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - GhostSR: Learning Ghost Features for Efficient Image Super-Resolution [49.393251361038025]
畳み込みニューラルネットワーク(CNN)に基づく単一の画像スーパーリゾリューション(SISR)システムは、膨大な計算コストを必要としながら派手なパフォーマンスを実現します。
SISRモデルの冗長な特徴(すなわちゴースト特徴)を生成するためにシフト演算を用いることを提案する。
提案モジュールに埋め込まれた非コンパクトかつ軽量なSISRモデルの両方が,ベースラインと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-01-21T10:09:47Z) - Sequential Hierarchical Learning with Distribution Transformation for
Image Super-Resolution [83.70890515772456]
画像SRのための逐次階層学習型超解像ネットワーク(SHSR)を構築した。
特徴のスケール間相関を考察し、階層的情報を段階的に探索するシーケンシャルなマルチスケールブロック(SMB)を考案する。
実験結果から,SHSRは最先端手法に優れた定量的性能と視覚的品質が得られることが示された。
論文 参考訳(メタデータ) (2020-07-19T01:35:53Z) - Distance Guided Channel Weighting for Semantic Segmentation [4.10724123131976]
DGCW(Distance Guided Channel Weighting Module)について紹介する。
DGCWモジュールは、画素単位のコンテキスト抽出方法で構成される。
DGCWNet(Distance Guided Channel Weighting Network)を提案する。
論文 参考訳(メタデータ) (2020-04-27T09:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。