論文の概要: $P^2$ Net: Augmented Parallel-Pyramid Net for Attention Guided Pose
Estimation
- arxiv url: http://arxiv.org/abs/2010.14076v1
- Date: Mon, 26 Oct 2020 02:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 19:22:39.341624
- Title: $P^2$ Net: Augmented Parallel-Pyramid Net for Attention Guided Pose
Estimation
- Title(参考訳): 注意誘導ポーズ推定のための拡張パラレルピラミドネット$p^2$ net
- Authors: Luanxuan Hou, Jie Cao, Yuan Zhao, Haifeng Shen, Jian Tang, Ran He
- Abstract要約: 拡張ボトルネックとアテンションモジュールによる特徴改善を施したパラレルピラミドネットを提案する。
並列ピラミド構造は、ネットワークによって導入された情報損失を補うために続く。
提案手法は, MSCOCO と MPII のデータセットにおいて, 最適な性能を実現する。
- 参考スコア(独自算出の注目度): 69.25492391672064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an augmented Parallel-Pyramid Net ($P^2~Net$) with feature
refinement by dilated bottleneck and attention module. During data
preprocessing, we proposed a differentiable auto data augmentation ($DA^2$)
method. We formulate the problem of searching data augmentaion policy in a
differentiable form, so that the optimal policy setting can be easily updated
by back propagation during training. $DA^2$ improves the training efficiency. A
parallel-pyramid structure is followed to compensate the information loss
introduced by the network. We innovate two fusion structures, i.e. Parallel
Fusion and Progressive Fusion, to process pyramid features from backbone
network. Both fusion structures leverage the advantages of spatial information
affluence at high resolution and semantic comprehension at low resolution
effectively. We propose a refinement stage for the pyramid features to further
boost the accuracy of our network. By introducing dilated bottleneck and
attention module, we increase the receptive field for the features with limited
complexity and tune the importance to different feature channels. To further
refine the feature maps after completion of feature extraction stage, an
Attention Module ($AM$) is defined to extract weighted features from different
scale feature maps generated by the parallel-pyramid structure. Compared with
the traditional up-sampling refining, $AM$ can better capture the relationship
between channels. Experiments corroborate the effectiveness of our proposed
method. Notably, our method achieves the best performance on the challenging
MSCOCO and MPII datasets.
- Abstract(参考訳): 拡張されたボトルネックとアテンションモジュールによる特徴改善を施したParallel-Pyramid Net(P^2~Net$)を提案する。
データ前処理中に、微分可能な自動データ拡張法(DA^2$)を提案した。
我々は,データ拡張ポリシーを異なる形で検索する問題を定式化し,トレーニング中のバック伝搬によって最適なポリシ設定を簡単に更新できるようにする。
$DA^2$はトレーニング効率を改善する。
パラレルピラミド構造を追従して、ネットワークが導入する情報損失を補償する。
我々は2つの融合構造、すなわち並列融合とプログレッシブ融合を革新し、バックボーンネットワークからピラミッドの特徴を処理する。
両融合構造は高分解能空間情報と低分解能意味理解の利点を効果的に活用している。
我々は,ネットワークの精度をさらに高めるために,ピラミッド機能の改良段階を提案する。
拡張されたボトルネックとアテンションモジュールを導入することで、複雑さの少ない機能に対する受容野を拡大し、異なる機能チャネルに重要性をチューニングします。
特徴抽出段階の完了後の特徴マップをさらに洗練するために、並列ピラミド構造によって生成された異なるスケール特徴マップから重み付けされた特徴を抽出するために注意モジュール(am$)を定義する。
従来のアップサンプリングのリファインと比べて、$am$はチャネル間の関係をよりよく捉えることができる。
提案手法の有効性を検証する実験を行った。
特に,本手法は,MSCOCOとMPIIデータセットの課題に対して,最高の性能を実現する。
関連論文リスト
- EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - A^2-FPN: Attention Aggregation based Feature Pyramid Network for
Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。
A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文 参考訳(メタデータ) (2021-05-07T11:51:08Z) - GridDehazeNet+: An Enhanced Multi-Scale Network with Intra-Task
Knowledge Transfer for Single Image Dehazing [12.982905875008214]
GridDehazeNet+と呼ばれる強化されたマルチスケールネットワークを提案します。
プリプロセス、バックボーン、後処理の3つのモジュールで構成されている。
論文 参考訳(メタデータ) (2021-03-25T17:35:36Z) - Efficient Human Pose Estimation by Learning Deeply Aggregated
Representations [67.24496300046255]
深く集約された表現を学習することで、効率的な人間ポーズ推定ネットワーク(DANet)を提案する。
私たちのネットワークは、より小さなモデルの複雑さで、同等またはより良い精度を達成できます。
論文 参考訳(メタデータ) (2020-12-13T10:58:07Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Multi-Fidelity Bayesian Optimization via Deep Neural Networks [19.699020509495437]
多くのアプリケーションでは、目的関数を複数の忠実度で評価することで、コストと精度のトレードオフを可能にする。
本稿では,DNN-MFBO(Deep Neural Network Multi-Fidelity Bayesian Optimization)を提案する。
本手法の利点は, 総合的なベンチマークデータセットと, 工学設計における実世界の応用の両方にある。
論文 参考訳(メタデータ) (2020-07-06T23:28:40Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。