論文の概要: SPCNet:Spatial Preserve and Content-aware Network for Human Pose
Estimation
- arxiv url: http://arxiv.org/abs/2004.05834v1
- Date: Mon, 13 Apr 2020 09:14:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 00:11:08.443431
- Title: SPCNet:Spatial Preserve and Content-aware Network for Human Pose
Estimation
- Title(参考訳): SPCNet:空間保存と人間行動推定のためのコンテンツ認識ネットワーク
- Authors: Yabo Xiao, Dongdong Yu, Xiaojuan Wang, Tianqi Lv, Yiqi Fan, Lingrui Wu
- Abstract要約: Dilated Hourglass Module(DHM)とSelective Information Module(SIM)の2つの有効モジュールを含む新しい空間保存・コンテンツ認識ネットワーク(SPCNet)を提案する。
特に,従来の手法を超越して,3つのベンチマークデータセットの最先端性能を実現している。
- 参考スコア(独自算出の注目度): 3.2540745519652434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human pose estimation is a fundamental yet challenging task in computer
vision. Although deep learning techniques have made great progress in this
area, difficult scenarios (e.g., invisible keypoints, occlusions, complex
multi-person scenarios, and abnormal poses) are still not well-handled. To
alleviate these issues, we propose a novel Spatial Preserve and Content-aware
Network(SPCNet), which includes two effective modules: Dilated Hourglass
Module(DHM) and Selective Information Module(SIM). By using the Dilated
Hourglass Module, we can preserve the spatial resolution along with large
receptive field. Similar to Hourglass Network, we stack the DHMs to get the
multi-stage and multi-scale information. Then, a Selective Information Module
is designed to select relatively important features from different levels under
a sufficient consideration of spatial content-aware mechanism and thus
considerably improves the performance. Extensive experiments on MPII, LSP and
FLIC human pose estimation benchmarks demonstrate the effectiveness of our
network. In particular, we exceed previous methods and achieve the
state-of-the-art performance on three aforementioned benchmark datasets.
- Abstract(参考訳): 人間のポーズ推定はコンピュータビジョンの基本的な課題である。
ディープラーニング技術はこの領域で大きな進歩を遂げているが、難しいシナリオ(目に見えないキーポイント、オクルージョン、複雑な多人数シナリオ、異常なポーズなど)はまだうまく扱っていない。
これらの問題を緩和するために、Dilated Hourglass Module(DHM)とSelective Information Module(SIM)の2つの有効なモジュールを含む空間保存・コンテンツ認識ネットワーク(SPCNet)を提案する。
Dilated Hourglass Module を用いることで、大きな受容場とともに空間分解能を維持できる。
Hourglass Networkと同様に、DHMを積み重ねてマルチステージとマルチスケールの情報を得る。
選択情報モジュールは,空間的コンテンツ認識機構を十分に考慮して,異なるレベルから比較的重要な特徴を抽出し,性能を著しく向上するように設計されている。
MPII, LSP, FLICの人間のポーズ推定ベンチマークによる大規模な実験により, ネットワークの有効性が示された。
特に,従来の手法を上回って,前述の3つのベンチマークデータセットで最先端のパフォーマンスを実現する。
関連論文リスト
- A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - RS-DFM: A Remote Sensing Distributed Foundation Model for Diverse Downstream Tasks [11.681342476516267]
汎用情報マッピングとインタラクションに基づく分散センシング基礎モデル(RS-DFM)を提案する。
このモデルは、複数のプラットフォームにわたるオンライン協調認識と、さまざまな下流タスクを実現することができる。
本稿では、高周波・低周波特徴情報を分離するデュアルブランチ情報圧縮モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-11T07:46:47Z) - Inter-slice Super-resolution of Magnetic Resonance Images by Pre-training and Self-supervised Fine-tuning [49.197385954021456]
臨床実践では、2次元磁気共鳴(MR)シーケンスが広く採用されている。個々の2次元スライスを積み重ねて3次元ボリュームを形成できるが、比較的大きなスライスススペーシングは可視化とその後の解析タスクに課題をもたらす可能性がある。
スライス間隔を低減するため,ディープラーニングに基づく超解像技術が広く研究されている。
現在のほとんどのソリューションは、教師付きトレーニングのために、かなりの数の高解像度と低解像度の画像を必要とするが、通常は現実のシナリオでは利用できない。
論文 参考訳(メタデータ) (2024-06-10T02:20:26Z) - Spatial Attention-based Distribution Integration Network for Human Pose
Estimation [0.8052382324386398]
本研究では,空間アテンションに基づく分布統合ネットワーク(SADI-NET)を提案する。
我々のネットワークは、受容強化モジュール(RFM)、空間融合モジュール(SFM)、分散学習モジュール(DLM)の3つの効率的なモデルで構成されている。
我々のモデルは、MPIIテストデータセットで920.10%の精度を得、既存のモデルよりも大幅に改善され、最先端のパフォーマンスが確立された。
論文 参考訳(メタデータ) (2023-11-09T12:43:01Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - A Deeper Look into DeepCap [96.67706102518238]
そこで本研究では,単分子密集型人間のパフォーマンスキャプチャのための新しい深層学習手法を提案する。
本手法は,多視点監視に基づく弱教師付き方式で訓練されている。
我々のアプローチは、品質と堅牢性の観点から、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2021-11-20T11:34:33Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z) - DeepCap: Monocular Human Performance Capture Using Weak Supervision [106.50649929342576]
そこで本研究では,単分子密集型人間のパフォーマンスキャプチャのための新しい深層学習手法を提案する。
本手法は,多視点監視に基づく弱教師付き方式で訓練されている。
我々のアプローチは、品質と堅牢性の観点から、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-03-18T16:39:56Z) - Spatial-Temporal Multi-Cue Network for Continuous Sign Language
Recognition [141.24314054768922]
本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。
有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-08T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。