論文の概要: Efficient Human Pose Estimation by Learning Deeply Aggregated
Representations
- arxiv url: http://arxiv.org/abs/2012.07033v2
- Date: Tue, 15 Dec 2020 02:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 17:35:13.251060
- Title: Efficient Human Pose Estimation by Learning Deeply Aggregated
Representations
- Title(参考訳): 深層集合表現の学習による効率的な人文推定
- Authors: Zhengxiong Luo, Zhicheng Wang, Yuanhao Cai, Guanan Wang, Yan Huang,
Liang Wang, Erjin Zhou, Tieniu Tan, Jian Sun
- Abstract要約: 深く集約された表現を学習することで、効率的な人間ポーズ推定ネットワーク(DANet)を提案する。
私たちのネットワークは、より小さなモデルの複雑さで、同等またはより良い精度を達成できます。
- 参考スコア(独自算出の注目度): 67.24496300046255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose an efficient human pose estimation network (DANet)
by learning deeply aggregated representations. Most existing models explore
multi-scale information mainly from features with different spatial sizes.
Powerful multi-scale representations usually rely on the cascaded pyramid
framework. This framework largely boosts the performance but in the meanwhile
makes networks very deep and complex. Instead, we focus on exploiting
multi-scale information from layers with different receptive-field sizes and
then making full of use this information by improving the fusion method.
Specifically, we propose an orthogonal attention block (OAB) and a second-order
fusion unit (SFU). The OAB learns multi-scale information from different layers
and enhances them by encouraging them to be diverse. The SFU adaptively selects
and fuses diverse multi-scale information and suppress the redundant ones. This
could maximize the effective information in final fused representations. With
the help of OAB and SFU, our single pyramid network may be able to generate
deeply aggregated representations that contain even richer multi-scale
information and have a larger representing capacity than that of cascaded
networks. Thus, our networks could achieve comparable or even better accuracy
with much smaller model complexity. Specifically, our \mbox{DANet-72} achieves
$70.5$ in AP score on COCO test-dev set with only $1.0G$ FLOPs. Its speed on a
CPU platform achieves $58$ Persons-Per-Second~(PPS).
- Abstract(参考訳): 本稿では,より深く集約された表現を学習し,効率の良い人間ポーズ推定ネットワーク(DANet)を提案する。
既存のモデルの多くは、主に空間サイズが異なる特徴からマルチスケール情報を探究している。
強力なマルチスケール表現は通常カスケードピラミッドフレームワークに依存する。
このフレームワークはパフォーマンスを大幅に向上させるが、一方でネットワークを深く複雑にしている。
代わりに、異なる受容界サイズを持つ層からのマルチスケール情報を活用することに集中し、融合法を改善することで、この情報をフル活用する。
具体的には,直交注意ブロック (OAB) と2階融合ユニット (SFU) を提案する。
OABは異なるレイヤからマルチスケール情報を学び、多様性を奨励することでそれらを強化する。
SFUは、多様なマルチスケール情報を適応的に選択してヒューズし、冗長な情報を抑圧する。
これにより、最終的な融合表現における有効な情報を最大化することができる。
OABとSFUの助けを借りて、我々の単一のピラミッドネットワークは、よりリッチなマルチスケール情報を含み、カスケードネットワークよりも大きな表現能力を持つ、深く集約された表現を生成することができるかもしれない。
したがって、我々のネットワークは、モデルの複雑さをはるかに小さくして、同等、あるいはさらに優れた精度を達成できます。
具体的には、私たちの \mbox{DANet-72} は、わずか1.0G$ FLOPsの COCO test-dev セットで 70.5$ のAPスコアを得る。
CPUプラットフォーム上での速度は、PPS(Persons-Per-Second~)$58である。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Cooperation Learning Enhanced Colonic Polyp Segmentation Based on
Transformer-CNN Fusion [21.6402447417878]
本研究ではFusion-Transformer-HardNetMSEG(Fu-TransHNet)と呼ばれるハイブリッドネットワークを提案する。
Fu-TransHNetは、異なるメカニズムの深層学習を用いて互いに融合し、多視点協調学習技術で強化されている。
実験の結果,Fu-TransHNetネットワークは5つの広く使用されているベンチマークデータセットの既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-01-17T13:58:17Z) - Multi-modal land cover mapping of remote sensing images using pyramid
attention and gated fusion networks [20.66034058363032]
本稿では、新しいピラミッド注意融合(PAF)モジュールとゲート融合ユニット(GFU)に基づくマルチモーダルリモートセンシングデータの土地被覆マッピングのための新しいマルチモーダルネットワークを提案する。
PAFモジュールは、内蔵のクロスレベルおよびクロスビューアテンション融合機構により、各モードからより微細なコンテキスト表現を効率的に得るように設計されている。
GFUモジュールは、新機能の早期マージに新しいゲーティング機構を使用し、隠れた冗長性とノイズを減少させる。
論文 参考訳(メタデータ) (2021-11-06T10:01:01Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - CNN based Multistage Gated Average Fusion (MGAF) for Human Action
Recognition Using Depth and Inertial Sensors [1.52292571922932]
畳み込みニューラルネットワーク(CNN)は、アーキテクチャのすべてのレイヤから機能を抽出し、融合するためのレバレッジを提供する。
我々は,CNNの全層から特徴を抽出し,融合する多段Gated Average Fusion (MGAF) ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T11:49:13Z) - $P^2$ Net: Augmented Parallel-Pyramid Net for Attention Guided Pose
Estimation [69.25492391672064]
拡張ボトルネックとアテンションモジュールによる特徴改善を施したパラレルピラミドネットを提案する。
並列ピラミド構造は、ネットワークによって導入された情報損失を補うために続く。
提案手法は, MSCOCO と MPII のデータセットにおいて, 最適な性能を実現する。
論文 参考訳(メタデータ) (2020-10-26T02:10:12Z) - Bifurcated backbone strategy for RGB-D salient object detection [168.19708737906618]
我々は、RGB-Dの高次物体検出に固有のマルチモーダル・マルチレベルの性質を活用して、新しいカスケードリファインメントネットワークを考案する。
アーキテクチャは Bifurcated Backbone Strategy Network (BBS-Net) と呼ばれ、シンプルで効率的でバックボーンに依存しない。
論文 参考訳(メタデータ) (2020-07-06T13:01:30Z) - Multi-organ Segmentation over Partially Labeled Datasets with
Multi-scale Feature Abstraction [14.92032083210668]
完全な注釈付きデータセットの短縮は、ディープラーニングベースのイメージセグメンテーションアルゴリズムを開発する上で、制限要因となっている。
本稿では,新しいマルチスケールディープニューラルネットワークを複数の部分ラベル付きデータセット上でトレーニング可能な統合トレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-01-01T13:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。