論文の概要: Efficient Human Pose Estimation by Maximizing Fusion and High-Level
Spatial Attention
- arxiv url: http://arxiv.org/abs/2107.13693v1
- Date: Thu, 29 Jul 2021 00:55:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 13:18:59.156574
- Title: Efficient Human Pose Estimation by Maximizing Fusion and High-Level
Spatial Attention
- Title(参考訳): 融合最大化と高レベル空間注意による効率的なポーズ推定
- Authors: Zhiyuan Ren, Yaohai Zhou, Yizhe Chen, Ruisong Zhou, Yayu Gao
- Abstract要約: マルチレベルの特徴を融合させ,軽量な注目ブロックを追加することで,効率的なポーズ推定ネットワーク(SFM)を提案する。
提案手法は,より少ないパラメータと計算コストで同等あるいはそれ以上の精度を実現する。
- 参考スコア(独自算出の注目度): 7.948205663509662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose an efficient human pose estimation network -- SFM
(slender fusion model) by fusing multi-level features and adding lightweight
attention blocks -- HSA (High-Level Spatial Attention). Many existing methods
on efficient network have already taken feature fusion into consideration,
which largely boosts the performance. However, its performance is far inferior
to large network such as ResNet and HRNet due to its limited fusion operation
in the network. Specifically, we expand the number of fusion operation by
building bridges between two pyramid frameworks without adding layers.
Meanwhile, to capture long-range dependency, we propose a lightweight attention
block -- HSA, which computes second-order attention map. In summary, SFM
maximizes the number of feature fusion in a limited number of layers. HSA
learns high precise spatial information by computing the attention of spatial
attention map. With the help of SFM and HSA, our network is able to generate
multi-level feature and extract precise global spatial information with little
computing resource. Thus, our method achieve comparable or even better accuracy
with less parameters and computational cost. Our SFM achieve 89.0 in PCKh@0.5,
42.0 in PCKh@0.1 on MPII validation set and 71.7 in AP, 90.7 in AP@0.5 on COCO
validation with only 1.7G FLOPs and 1.5M parameters. The source code will be
public soon.
- Abstract(参考訳): 本稿では,マルチレベル特徴を融合させ,HSA(High-Level Spatial Attention)という軽量な注意ブロックを追加することで,効率的な人体ポーズ推定ネットワークであるSFM(Slender fusion model)を提案する。
効率的なネットワーク上の多くの既存手法は機能融合を考慮に入れており、性能が大幅に向上している。
しかし、その性能はresnetやhrnetのような大規模ネットワークに比べて、ネットワークでの融合動作が限られているため、はるかに劣っている。
具体的には、レイヤを追加せずに2つのピラミッドフレームワーク間のブリッジを構築することで、融合操作数を拡大する。
一方,長距離依存を捉えるために,2次注目マップを演算する軽量アテンションブロック-HSAを提案する。
要約すると、SFMは限られた数の層における機能融合の数を最大化する。
HSAは空間注意マップの注意を計算して高精度な空間情報を学習する。
SFMとHSAの助けを借りて、我々のネットワークはマルチレベルの特徴を生成し、少ない計算資源で正確なグローバル空間情報を抽出することができる。
そこで本手法は,パラメータや計算コストを小さくして,比較あるいは精度の向上を図る。
我々は,PCKh@0.5で89.0,PCKh@0.1で42.0,APで71.7,AP@0.5で90.7,COCOで1.7GのFLOPと1.5Mのパラメータしか持たない。
ソースコードは近々公開される予定だ。
関連論文リスト
- Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - A Mask Attention Interaction and Scale Enhancement Network for SAR Ship
Instance Segmentation [4.232332676611087]
本稿では,SAR船のインスタンスセグメンテーションのためのマスクアテンションインタラクションとスケールエンハンスメントネットワーク(MAI-SE-Net)を提案する。
MAIは、アトラス空間ピラミドプーリング(ASPP)を用いてマルチレゾリューション機能を再応答し、非局所ブロック(NLB)で長距離空間依存性をモデル化し、結合シャッフルアテンションブロック(CSAB)で相互作用の利点を向上させる。
論文 参考訳(メタデータ) (2022-07-08T14:04:04Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - An Attention-Fused Network for Semantic Segmentation of
Very-High-Resolution Remote Sensing Imagery [26.362854938949923]
注目融合ネットワーク(AFNet)という,新しい畳み込みニューラルネットワークアーキテクチャを提案する。
ISPRS Vaihingen 2DデータセットとISPRS Potsdam 2Dデータセットで、総精度91.7%、平均F1スコア90.96%の最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-10T06:23:27Z) - A^2-FPN: Attention Aggregation based Feature Pyramid Network for
Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。
A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文 参考訳(メタデータ) (2021-05-07T11:51:08Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - SA-Net: Shuffle Attention for Deep Convolutional Neural Networks [0.0]
この問題に対処するために,効率的なShuffle Attention (SA) モジュールを提案する。
例えば、バックボーンのResNet50に対するSAのパラメータと計算は、それぞれ300対25.56Mと2.76e-3 GFLOPs対4.12 GFLOPである。
論文 参考訳(メタデータ) (2021-01-30T15:23:17Z) - Efficient Human Pose Estimation by Learning Deeply Aggregated
Representations [67.24496300046255]
深く集約された表現を学習することで、効率的な人間ポーズ推定ネットワーク(DANet)を提案する。
私たちのネットワークは、より小さなモデルの複雑さで、同等またはより良い精度を達成できます。
論文 参考訳(メタデータ) (2020-12-13T10:58:07Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z) - CNN based Multistage Gated Average Fusion (MGAF) for Human Action
Recognition Using Depth and Inertial Sensors [1.52292571922932]
畳み込みニューラルネットワーク(CNN)は、アーキテクチャのすべてのレイヤから機能を抽出し、融合するためのレバレッジを提供する。
我々は,CNNの全層から特徴を抽出し,融合する多段Gated Average Fusion (MGAF) ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T11:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。