論文の概要: Full-Resolution Encoder-Decoder Networks with Multi-Scale Feature Fusion
for Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2106.00566v1
- Date: Tue, 1 Jun 2021 15:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 17:00:57.498881
- Title: Full-Resolution Encoder-Decoder Networks with Multi-Scale Feature Fusion
for Human Pose Estimation
- Title(参考訳): マルチスケール特徴融合によるポーズ推定のためのフルレゾリューションエンコーダ・デコーダネットワーク
- Authors: Jie Ou, Mingjian Chen, Hong Wu
- Abstract要約: 我々は,エンコーダ・デコーダネットワーク,単純なベースラインネットワーク(SBN)を3つの方法で拡張する。
大きな出力ストライドサイズに起因する量子化誤差を低減するため、単純なベースラインネットワークの端にさらに2つのデコーダモジュールを付加する。
次に、グローバルコンテキストブロック(GCB)をエンコーダモジュールとデコーダモジュールに追加し、グローバルコンテキスト機能で拡張する。
- 参考スコア(独自算出の注目度): 5.156484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To achieve more accurate 2D human pose estimation, we extend the successful
encoder-decoder network, simple baseline network (SBN), in three ways. To
reduce the quantization errors caused by the large output stride size, two more
decoder modules are appended to the end of the simple baseline network to get
full output resolution. Then, the global context blocks (GCBs) are added to the
encoder and decoder modules to enhance them with global context features.
Furthermore, we propose a novel spatial-attention-based multi-scale feature
collection and distribution module (SA-MFCD) to fuse and distribute multi-scale
features to boost the pose estimation. Experimental results on the MS COCO
dataset indicate that our network can remarkably improve the accuracy of human
pose estimation over SBN, our network using ResNet34 as the backbone network
can even achieve the same accuracy as SBN with ResNet152, and our networks can
achieve superior results with big backbone networks.
- Abstract(参考訳): より正確な2次元ポーズ推定を実現するために,エンコーダ・デコーダネットワーク,単純なベースラインネットワーク(SBN)を3つの方法で拡張する。
大きな出力ストライドサイズに起因する量子化誤差を低減するため、単純なベースラインネットワークの端に2つのデコーダモジュールを追加して完全な出力解像度を得る。
次に、グローバルコンテキストブロック(gcbs)がエンコーダとデコーダモジュールに追加され、グローバルコンテキスト機能によってそれらを強化する。
さらに,マルチスケール特徴を融合分散し,ポーズ推定を促進するために,空間対応型マルチスケール特徴収集分散モジュール(sa-mfcd)を提案する。
ms cocoデータセットにおける実験結果から,本ネットワークはsbn上でのポーズ推定の精度を著しく向上し,resnet34をバックボーンネットワークとして使用するネットワークは,resnet152でsbnと同等の精度を達成し,大規模バックボーンネットワークで優れた結果を得ることができた。
関連論文リスト
- Double-Shot 3D Shape Measurement with a Dual-Branch Network [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できることを示す。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates and Attention-Fusion Networks [0.0]
本研究では,一意に効率的な残差ネットワークであるEfficient-ResNetを用いたエンコーダデコーダアーキテクチャを提案する。
アテンションブーティングゲート(AbG)とアテンションブーイングモジュール(AbM)は、グローバルコンテキストの出力の等価サイズで同変および特徴に基づく意味情報を融合することを目的として展開される。
我々のネットワークは、挑戦的なCamVidとCityscapesのデータセットでテストされており、提案手法により、残余ネットワークに対する大幅な改善が示されている。
論文 参考訳(メタデータ) (2024-01-28T19:58:19Z) - SODAWideNet -- Salient Object Detection with an Attention augmented Wide
Encoder Decoder network without ImageNet pre-training [3.66237529322911]
我々は、ImageNet事前トレーニングなしで、Salient Object Detectionを直接訓練したスクラッチからニューラルネットワークを開発することを検討する。
本稿では,Salient Object Detection のためのエンコーダデコーダ型ネットワーク SODAWideNet を提案する。
SODAWideNet-S (3.03M) と SODAWideNet (9.03M) の2つの変種は、5つのデータセット上の最先端モデルと競合する性能を達成する。
論文 参考訳(メタデータ) (2023-11-08T16:53:44Z) - RDRN: Recursively Defined Residual Network for Image Super-Resolution [58.64907136562178]
深部畳み込みニューラルネットワーク(CNN)は、単一画像超解像において顕著な性能を得た。
本稿では,注目ブロックを効率的に活用する新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-17T11:06:29Z) - Global-Local Path Networks for Monocular Depth Estimation with Vertical
CutDepth [24.897377434844266]
単分子深度推定のための新しい構造とトレーニング戦略を提案する。
階層型トランスフォーマーエンコーダをデプロイして,グローバルなコンテキストをキャプチャし,伝達し,軽量で強力なデコーダを設計する。
我々のネットワークは、挑戦的な深度データセットNYU Depth V2に対して最先端の性能を達成する。
論文 参考訳(メタデータ) (2022-01-19T06:37:21Z) - Suppress and Balance: A Simple Gated Network for Salient Object
Detection [89.88222217065858]
両問題を同時に解くための単純なゲートネットワーク(GateNet)を提案する。
多レベルゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに最適に送信することができる。
さらに,提案したFold-ASPP操作(Fold-ASPP)に基づくアトラス空間ピラミッドプーリングを用いて,様々なスケールのサリアンオブジェクトを正確に位置決めする。
論文 参考訳(メタデータ) (2020-07-16T02:00:53Z) - Cross-Attention in Coupled Unmixing Nets for Unsupervised Hyperspectral
Super-Resolution [79.97180849505294]
本稿では,HSIの空間分解能を高めるために,CUCaNetというクロスアテンション機構を備えた新しい結合型アンミックスネットワークを提案する。
3つの広く使われているHS-MSデータセットに対して、最先端のHSI-SRモデルと比較実験を行った。
論文 参考訳(メタデータ) (2020-07-10T08:08:20Z) - ReActNet: Towards Precise Binary Neural Network with Generalized
Activation Functions [76.05981545084738]
本稿では,新たな計算コストを伴わずに,実数値ネットワークからの精度ギャップを埋めるため,バイナリネットワークを強化するためのいくつかのアイデアを提案する。
まず,パラメータフリーのショートカットを用いて,コンパクトな実数値ネットワークを修正・バイナライズすることで,ベースラインネットワークを構築する。
提案したReActNetはすべての最先端技術よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2020-03-07T02:12:02Z) - Toward fast and accurate human pose estimation via soft-gated skip
connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。
我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。
本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-02-25T18:51:51Z) - Dense Residual Network: Enhancing Global Dense Feature Flow for
Character Recognition [75.4027660840568]
本稿では,すべての畳み込み層から階層的特徴をフルに活用することにより,局所的・大域的特徴フローを改善する方法について検討する。
技術的には、テキスト認識のための効率的で効果的なCNNフレームワークであるFDRN(Fast Dense Residual Network)を提案する。
論文 参考訳(メタデータ) (2020-01-23T06:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。