論文の概要: HRPVT: High-Resolution Pyramid Vision Transformer for medium and small-scale human pose estimation
- arxiv url: http://arxiv.org/abs/2410.22079v1
- Date: Tue, 29 Oct 2024 14:36:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:40:22.955358
- Title: HRPVT: High-Resolution Pyramid Vision Transformer for medium and small-scale human pose estimation
- Title(参考訳): HRPVT:中小人のポーズ推定のための高分解能ピラミッド視変換器
- Authors: Zhoujie Xu,
- Abstract要約: 中小規模での人間のポーズ推定は、長い間この分野において重要な課題であった。
本稿では PVT v2 をバックボーンとして利用して長距離依存をモデル化する HRPVT を提案する。
高品質な高分解能表現を生成するために設計された高分解能ピラミッドモジュール(HRPM)を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Human pose estimation on medium and small scales has long been a significant challenge in this field. Most existing methods focus on restoring high-resolution feature maps by stacking multiple costly deconvolutional layers or by continuously aggregating semantic information from low-resolution feature maps while maintaining high-resolution ones, which can lead to information redundancy. Additionally, due to quantization errors, heatmap-based methods have certain disadvantages in accurately locating keypoints of medium and small-scale human figures. In this paper, we propose HRPVT, which utilizes PVT v2 as the backbone to model long-range dependencies. Building on this, we introduce the High-Resolution Pyramid Module (HRPM), designed to generate higher quality high-resolution representations by incorporating the intrinsic inductive biases of Convolutional Neural Networks (CNNs) into the high-resolution feature maps. The integration of HRPM enhances the performance of pure transformer-based models for human pose estimation at medium and small scales. Furthermore, we replace the heatmap-based method with SimCC approach, which eliminates the need for costly upsampling layers, thereby allowing us to allocate more computational resources to HRPM. To accommodate models with varying parameter scales, we have developed two insertion strategies of HRPM, each designed to enhancing the model's ability to perceive medium and small-scale human poses from two distinct perspectives.
- Abstract(参考訳): 中小規模での人間のポーズ推定は、長い間この分野において重要な課題であった。
既存のほとんどの手法は、複数のコストのかかるデコンボリューション層を積み重ねることや、高解像度の機能マップを維持しつつ、低解像度の機能マップから意味情報を継続的に集約することにより、高解像度の機能マップの復元に重点を置いている。
さらに、量子化誤差のため、ヒートマップに基づく手法では、中小の人物のキーポイントを正確に特定することができない。
本稿では,PVT v2をバックボーンとして利用するHRPVTを提案する。
そこで我々は,高分解能特徴写像に畳み込みニューラルネットワーク(CNN)の本質的帰納バイアスを組み込むことにより,高品質な高分解能表現を生成するための高分解能ピラミッドモジュール(HRPM)を提案する。
HRPMの統合により、中小規模での人間のポーズ推定のための純粋なトランスフォーマーモデルの性能が向上する。
さらに,ヒートマップに基づく手法をSimCCアプローチに置き換えることで,コストのかかるレイヤのアップサンプリングを不要にし,HRPMにより多くの計算資源を割り当てることが可能になる。
パラメータスケールの異なるモデルに対応するため、HRPMの挿入戦略を2つ開発し、それぞれのモデルが2つの異なる視点から中小の人間のポーズを知覚する能力を高めるよう設計した。
関連論文リスト
- Cross-Domain Knowledge Distillation for Low-Resolution Human Pose Estimation [31.970739018426645]
人間のポーズ推定の実践的応用では、低解像度の入力が頻繁に発生し、既存の最先端モデルでは低解像度の画像では不十分である。
本研究は,高分解能モデルから知識を抽出することにより,低分解能モデルの性能向上に重点を置いている。
論文 参考訳(メタデータ) (2024-05-19T04:57:17Z) - SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation [74.07836010698801]
この問題に対処するために,SMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。
SMPLerは、切り離された注意操作とSMPLベースのターゲット表現の2つの重要な要素を組み込んでいる。
SMPLerの既存の3次元人体形状に対する効果とポーズ推定方法の実証実験を行った。
論文 参考訳(メタデータ) (2024-04-23T17:59:59Z) - Improving Pixel-based MIM by Reducing Wasted Modeling Capability [77.99468514275185]
浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。
私たちの知る限りでは、等方的アーキテクチャのためのマルチレベル特徴融合を体系的に研究するのは、私たちは初めてです。
提案手法は, 微調整では1.2%, 線形探索では2.8%, セマンティックセグメンテーションでは2.6%など, 大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2023-08-01T03:44:56Z) - Learning Structure-Guided Diffusion Model for 2D Human Pose Estimation [71.24808323646167]
ニューラルネットワークを用いてキーポイントのヒートマップを学習するための新しいスキームである textbfDiffusionPose を提案する。
トレーニング中、キーポイントはノイズを加えることでランダム分布に拡散され、拡散モデルはノイズ付きヒートマップから地中構造熱マップを復元する。
実験では、広く使用されているCOCO、CrowdPose、AI Challengeデータセット上で1.6、1.2、1.2mAPの改善による、私たちのスキームの長所が示されている。
論文 参考訳(メタデータ) (2023-06-29T16:24:32Z) - HDNet: High-resolution Dual-domain Learning for Spectral Compressive
Imaging [138.04956118993934]
HSI再構成のための高分解能デュアルドメイン学習ネットワーク(HDNet)を提案する。
一方、高効率な特徴融合によるHR空間スペクトルアテンションモジュールは、連続的かつ微細な画素レベルの特徴を提供する。
一方、HSI再構成のために周波数領域学習(FDL)を導入し、周波数領域の差を狭める。
論文 参考訳(メタデータ) (2022-03-04T06:37:45Z) - Memory-augmented Deep Unfolding Network for Guided Image
Super-resolution [67.83489239124557]
誘導画像超解像(GISR)は、HR画像の誘導の下で低解像度(LR)目標画像の空間分解能を高めて高解像度(HR)目標画像を得る。
従来のモデルベース手法は主に画像全体を取り、HR目標画像とHRガイダンス画像との事前分布を仮定する。
HR目標画像上で2種類の事前性を持つGISRの最大後部(MAP)推定モデルを提案する。
論文 参考訳(メタデータ) (2022-02-12T15:37:13Z) - Gradient Variance Loss for Structure-Enhanced Image Super-Resolution [16.971608518924597]
構造強調損失関数(Gradient Variance(GV)損失)を導入し,知覚特性の詳細でテクスチャを生成する。
実験の結果,GV損失は,既存の画像超解像(SR)深層学習モデルにおいて,構造類似度(SSIM)とピーク信号-雑音比(PSNR)の両方を著しく改善できることがわかった。
論文 参考訳(メタデータ) (2022-02-02T12:31:05Z) - Multiscale Invertible Generative Networks for High-Dimensional Bayesian
Inference [9.953855915186352]
高次元ベイズ推論を解くために,MsIGN(Multiscale Invertible Generative Network)を提案する。
MsIGNは後部の低次元の性質を利用し、粗さから微細なスケールまでサンプルを生成します。
自然な画像合成タスクでは、MsIGNはベースラインモデルよりもビット/次元で優れた性能を実現します。
論文 参考訳(メタデータ) (2021-05-12T07:51:47Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。