論文の概要: Global Relation Modeling and Refinement for Bottom-Up Human Pose
Estimation
- arxiv url: http://arxiv.org/abs/2303.14888v1
- Date: Mon, 27 Mar 2023 02:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 17:06:36.758257
- Title: Global Relation Modeling and Refinement for Bottom-Up Human Pose
Estimation
- Title(参考訳): ボトムアップ人材推定のためのグローバルリレーモデルとリファインメント
- Authors: Ruoqi Yin, Jianqin Yin
- Abstract要約: ボトムアップヒトポーズ推定のための畳み込みニューラルネットワークを提案する。
我々のモデルは、地域によって異なる粒度に焦点を合わせることができる。
COCO と CrowdPose のデータセットで得られた結果は,多人数ポーズ推定の効率的なフレームワークであることを実証している。
- 参考スコア(独自算出の注目度): 4.24515544235173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we concern on the bottom-up paradigm in multi-person pose
estimation (MPPE). Most previous bottom-up methods try to consider the relation
of instances to identify different body parts during the post processing, while
ignoring to model the relation among instances or environment in the feature
learning process. In addition, most existing works adopt the operations of
upsampling and downsampling. During the sampling process, there will be a
problem of misalignment with the source features, resulting in deviations in
the keypoint features learned by the model.
To overcome the above limitations, we propose a convolutional neural network
for bottom-up human pose estimation. It invovles two basic modules: (i) Global
Relation Modeling (GRM) module globally learns relation (e.g., environment
context, instance interactive information) among region of image by fusing
multiple stages features in the feature learning process. It combines with the
spatial-channel attention mechanism, which focuses on achieving adaptability in
spatial and channel dimensions. (ii) Multi-branch Feature Align (MFA) module
aggregates features from multiple branches to align fused feature and obtain
refined local keypoint representation. Our model has the ability to focus on
different granularity from local to global regions, which significantly boosts
the performance of the multi-person pose estimation. Our results on the COCO
and CrowdPose datasets demonstrate that it is an efficient framework for
multi-person pose estimation.
- Abstract(参考訳): 本稿では,多人数ポーズ推定(MPPE)におけるボトムアップパラダイムについて検討する。
従来のボトムアップ手法では, 特徴学習プロセスにおけるインスタンスや環境の関係をモデル化せず, 後処理中に異なる身体部位を識別するインスタンスの関係を考慮しようとする。
さらに、既存の作品の多くはアップサンプリングとダウンサンプリングの操作を採用している。
サンプリングプロセスでは、ソース機能とのミスアレーメントの問題が発生し、モデルによって学習されるキーポイント機能に偏りが生じる。
上記の制限を克服するために,ボトムアップヒトポーズ推定のための畳み込みニューラルネットワークを提案する。
基本モジュールは2つある。
一 グローバルリレーショナルモデリング(GRM)モジュールは、特徴学習プロセスにおいて複数の段階的特徴を融合することにより、画像領域間の関係(環境コンテキスト、インスタンスインタラクティブ情報など)をグローバルに学習する。
空間的およびチャネル次元の適応性の実現に焦点を当てた空間チャネルアテンション機構と組み合わせる。
(II)MFAモジュールは、複数のブランチから特徴を集約し、融合した特徴を調整し、洗練された局所キーポイント表現を得る。
このモデルでは,局所からグローバルへの粒度の違いに着目し,多人数ポーズ推定の性能を著しく向上させる。
COCO と CrowdPose のデータセットで得られた結果は,多人数ポーズ推定の効率的なフレームワークであることを実証している。
関連論文リスト
- GMFL-Net: A Global Multi-geometric Feature Learning Network for Repetitive Action Counting [4.117416395116726]
GMFL-Net(Global Multi-geometric Feature Learning Network)を提案する。
具体的には,多幾何学的特徴を融合させて情報表現を改善するMIAモジュールを設計する。
また、ポイントワイド素子とチャネルワイド素子の相互依存性を高めるGBFLモジュールを設計する。
論文 参考訳(メタデータ) (2024-08-31T02:18:26Z) - A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose
Estimation [16.32910684198013]
本稿では、条件付きヒートマップ生成問題として、ビデオに基づく人間のポーズ推定を定式化する新しい拡散アーキテクチャDiffPoseを提案する。
ポーズ推定タスクにおけるDiffPoseの特徴として,(i)複数のポーズ推定を組み合わせて予測精度を向上させる能力,(ii)モデルを再訓練することなく特徴改善のための反復的なステップ数を調整する能力,の2点を挙げる。
論文 参考訳(メタデータ) (2023-07-31T14:00:23Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Joint Self-Attention and Scale-Aggregation for Self-Calibrated Deraining
Network [13.628218953897946]
本稿では,JDNetとよばれる有効アルゴリズムを提案する。
自己校正畳み込みを用いたスケール・アグリゲーション・セルフアグリゲーション・モジュールを巧みに設計することにより,提案モデルはより優れたデコレーション結果が得られる。
論文 参考訳(メタデータ) (2020-08-06T17:04:34Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。