Fugu-MT 論文翻訳(概要): Efficient Human Pose Estimation by Maximizing Fusion and High-Level Spatial Attention

論文の概要: Efficient Human Pose Estimation by Maximizing Fusion and High-Level Spatial Attention

arxiv url: http://arxiv.org/abs/2107.13693v1
Date: Thu, 29 Jul 2021 00:55:17 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-30 13:18:59.156574
Title: Efficient Human Pose Estimation by Maximizing Fusion and High-Level Spatial Attention
Title（参考訳）: 融合最大化と高レベル空間注意による効率的なポーズ推定
Authors: Zhiyuan Ren, Yaohai Zhou, Yizhe Chen, Ruisong Zhou, Yayu Gao
Abstract要約: マルチレベルの特徴を融合させ,軽量な注目ブロックを追加することで,効率的なポーズ推定ネットワーク(SFM)を提案する。提案手法は,より少ないパラメータと計算コストで同等あるいはそれ以上の精度を実現する。
参考スコア（独自算出の注目度）: 7.948205663509662
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose an efficient human pose estimation network -- SFM (slender fusion model) by fusing multi-level features and adding lightweight attention blocks -- HSA (High-Level Spatial Attention). Many existing methods on efficient network have already taken feature fusion into consideration, which largely boosts the performance. However, its performance is far inferior to large network such as ResNet and HRNet due to its limited fusion operation in the network. Specifically, we expand the number of fusion operation by building bridges between two pyramid frameworks without adding layers. Meanwhile, to capture long-range dependency, we propose a lightweight attention block -- HSA, which computes second-order attention map. In summary, SFM maximizes the number of feature fusion in a limited number of layers. HSA learns high precise spatial information by computing the attention of spatial attention map. With the help of SFM and HSA, our network is able to generate multi-level feature and extract precise global spatial information with little computing resource. Thus, our method achieve comparable or even better accuracy with less parameters and computational cost. Our SFM achieve 89.0 in PCKh@0.5, 42.0 in PCKh@0.1 on MPII validation set and 71.7 in AP, 90.7 in AP@0.5 on COCO validation with only 1.7G FLOPs and 1.5M parameters. The source code will be public soon.
Abstract（参考訳）: 本稿では,マルチレベル特徴を融合させ,HSA(High-Level Spatial Attention)という軽量な注意ブロックを追加することで,効率的な人体ポーズ推定ネットワークであるSFM(Slender fusion model)を提案する。効率的なネットワーク上の多くの既存手法は機能融合を考慮に入れており、性能が大幅に向上している。しかし、その性能はresnetやhrnetのような大規模ネットワークに比べて、ネットワークでの融合動作が限られているため、はるかに劣っている。具体的には、レイヤを追加せずに2つのピラミッドフレームワーク間のブリッジを構築することで、融合操作数を拡大する。一方,長距離依存を捉えるために,2次注目マップを演算する軽量アテンションブロック-HSAを提案する。要約すると、SFMは限られた数の層における機能融合の数を最大化する。 HSAは空間注意マップの注意を計算して高精度な空間情報を学習する。 SFMとHSAの助けを借りて、我々のネットワークはマルチレベルの特徴を生成し、少ない計算資源で正確なグローバル空間情報を抽出することができる。そこで本手法は,パラメータや計算コストを小さくして,比較あるいは精度の向上を図る。我々は,PCKh@0.5で89.0,PCKh@0.1で42.0,APで71.7,AP@0.5で90.7,COCOで1.7GのFLOPと1.5Mのパラメータしか持たない。ソースコードは近々公開される予定だ。

関連論文リスト

HASN: Hybrid Attention Separable Network for Efficient Image Super-resolution [5.110892180215454]
単一画像の超高解像度化のための軽量な手法は、限られたハードウェアリソースのために優れた性能を達成した。その結果, 各ブロックの残差接続により, モデルストレージと計算コストが増大することが判明した。我々は,基本的特徴抽出モジュールとして,奥行き分離可能な畳み込み,完全連結層,アクティベーション関数を用いる。
論文参考訳（メタデータ） (2024-10-13T14:00:21Z)
HRSAM: Efficient Interactive Segmentation in High-Resolution Images [59.537068118473066]
Segment Anything Model (SAM) は高度な対話的セグメンテーションを持つが、高解像度画像の計算コストによって制限される。本稿では,視覚長外挿に着目し,HRSAMという軽量モデルを提案する。この外挿により、HRSAMは低分解能で訓練され、高分解能に一般化できる。
論文参考訳（メタデータ） (2024-07-02T09:51:56Z)
A Lightweight Attention-based Deep Network via Multi-Scale Feature Fusion for Multi-View Facial Expression Recognition [2.9581436761331017]
これらの問題に対処するために,マルチスケール機能融合(LANMSFF)を取り入れた軽量な注意ネットワークを導入する。本稿では,マスアテンション(MassAtt)とポイントワイズ機能選択(PWFS)という2つの新しいコンポーネントを提案する。提案手法は,パラメータ数やロバスト性の観点から,最先端手法に匹敵する結果を得た。
論文参考訳（メタデータ） (2024-03-21T11:40:51Z)
EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。 1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文参考訳（メタデータ） (2022-06-21T17:59:56Z)
An Attention-Fused Network for Semantic Segmentation of Very-High-Resolution Remote Sensing Imagery [26.362854938949923]
注目融合ネットワーク(AFNet)という,新しい畳み込みニューラルネットワークアーキテクチャを提案する。 ISPRS Vaihingen 2DデータセットとISPRS Potsdam 2Dデータセットで、総精度91.7%、平均F1スコア90.96%の最先端のパフォーマンスを実現します。
論文参考訳（メタデータ） (2021-05-10T06:23:27Z)
A^2-FPN: Attention Aggregation based Feature Pyramid Network for Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。 A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文参考訳（メタデータ） (2021-05-07T11:51:08Z)
FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文参考訳（メタデータ） (2021-03-08T03:09:37Z)
SA-Net: Shuffle Attention for Deep Convolutional Neural Networks [0.0]
この問題に対処するために,効率的なShuffle Attention (SA) モジュールを提案する。例えば、バックボーンのResNet50に対するSAのパラメータと計算は、それぞれ300対25.56Mと2.76e-3 GFLOPs対4.12 GFLOPである。
論文参考訳（メタデータ） (2021-01-30T15:23:17Z)
Efficient Human Pose Estimation by Learning Deeply Aggregated Representations [67.24496300046255]
深く集約された表現を学習することで、効率的な人間ポーズ推定ネットワーク(DANet)を提案する。私たちのネットワークは、より小さなモデルの複雑さで、同等またはより良い精度を達成できます。
論文参考訳（メタデータ） (2020-12-13T10:58:07Z)
Lightweight Single-Image Super-Resolution Network with Attentive Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2020-11-13T06:01:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。