論文の概要: Single-stage Multi-human Parsing via Point Sets and Center-based Offsets
- arxiv url: http://arxiv.org/abs/2304.11356v1
- Date: Sat, 22 Apr 2023 09:30:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 18:57:52.048318
- Title: Single-stage Multi-human Parsing via Point Sets and Center-based Offsets
- Title(参考訳): ポイントセットとセンターベースオフセットによる一段階多人数パーシング
- Authors: Jiaming Chu, Lei Jin, Junliang Xing and Jian Zhao
- Abstract要約: 本稿では,マルチヒューマン解析問題を2つの微粒なサブプロブレムに分解する,高性能なシングルステージマルチヒューマンパーシングアーキテクチャを提案する。
提案手法では,より少ない訓練エポックとより複雑なモデルアーキテクチャを必要とする。
特に、提案手法では、トレーニングのエポックを少なくし、より複雑なモデルアーキテクチャを必要とする。
- 参考スコア(独自算出の注目度): 28.70266615856546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies the multi-human parsing problem. Existing methods, either
following top-down or bottom-up two-stage paradigms, usually involve expensive
computational costs. We instead present a high-performance Single-stage
Multi-human Parsing (SMP) deep architecture that decouples the multi-human
parsing problem into two fine-grained sub-problems, i.e., locating the human
body and parts. SMP leverages the point features in the barycenter positions to
obtain their segmentation and then generates a series of offsets from the
barycenter of the human body to the barycenters of parts, thus performing human
body and parts matching without the grouping process. Within the SMP
architecture, we propose a Refined Feature Retain module to extract the global
feature of instances through generated mask attention and a Mask of Interest
Reclassify module as a trainable plug-in module to refine the classification
results with the predicted segmentation. Extensive experiments on the MHPv2.0
dataset demonstrate the best effectiveness and efficiency of the proposed
method, surpassing the state-of-the-art method by 2.1% in AP50p, 1.0% in
APvolp, and 1.2% in PCP50. In particular, the proposed method requires fewer
training epochs and a less complex model architecture. We will release our
source codes, pretrained models, and online demos to facilitate further
studies.
- Abstract(参考訳): 本研究は多人数パーシング問題を研究する。
既存の手法はトップダウンまたはボトムアップの2段階のパラダイムに従っており、通常は高価な計算コストがかかる。
代わりに,マルチヒューマン解析問題を2つのきめ細かい部分問題,すなわち人体と部分の位置付けに分解する,高性能なsmp(single-stage multi-human parse)ディープアーキテクチャを提案する。
smpは、バリセンタの位置の点の特徴を利用してセグメンテーションを取得し、人体のバリセンタから部品のバリセンタまでの一連のオフセットを生成し、グループ化プロセスなしで人体と部品をマッチングする。
SMP アーキテクチャ内では,生成したマスクアテンションによってインスタンスのグローバルな特徴を抽出するRefined Feature Retain モジュールと,予測セグメンテーションにより分類結果を洗練するためのトレーニング可能なプラグインモジュールであるMask of Interest Reclassify モジュールを提案する。
MHPv2.0データセットの大規模な実験は,提案手法の有効性と効率を最大化し,AP50pが2.1%,APvolpが1.0%,PCP50が1.2%を突破した。
特に,提案手法では,学習時間が少なく,より複雑なモデルアーキテクチャが必要となる。
さらなる研究を促進するために、ソースコード、トレーニング済みモデル、オンラインデモをリリースします。
関連論文リスト
- AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation [55.179287851188036]
人間のポーズと形状の復元のための新しいオールインワンステージフレームワークであるAiOSを、追加の人間検出ステップなしで導入する。
まず、画像中の人間の位置を探索し、各インスタンスのグローバルな機能をエンコードするために、人間のトークンを使用します。
そして、画像中の人間の関節を探索し、きめ細かい局所的特徴を符号化するジョイント関連トークンを導入する。
論文 参考訳(メタデータ) (2024-03-26T17:59:23Z) - Subject-Independent Deep Architecture for EEG-based Motor Imagery
Classification [0.5439020425819]
脳波(EEG)に基づく運動脳波(MI)分類は、非侵襲的脳-コンピュータインタフェース(BCI)システムにおいて広く用いられている手法である。
我々は、新しい主題に依存しない半教師付き深層構造(SSDA)を提案する。
提案されたSSDAは、教師なし要素と教師なし要素の2つの部分から構成される。
論文 参考訳(メタデータ) (2024-01-27T23:05:51Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Tuning Pre-trained Model via Moment Probing [62.445281364055795]
本稿では,LP の可能性を探るため,新しい Moment Probing (MP) 法を提案する。
MPは、最終特徴の平均に基づいて線形分類ヘッドを実行する。
当社のMPはLPを著しく上回り、トレーニングコストの低い相手と競争しています。
論文 参考訳(メタデータ) (2023-07-21T04:15:02Z) - Global Relation Modeling and Refinement for Bottom-Up Human Pose
Estimation [4.24515544235173]
ボトムアップヒトポーズ推定のための畳み込みニューラルネットワークを提案する。
我々のモデルは、地域によって異なる粒度に焦点を合わせることができる。
COCO と CrowdPose のデータセットで得られた結果は,多人数ポーズ推定の効率的なフレームワークであることを実証している。
論文 参考訳(メタデータ) (2023-03-27T02:54:08Z) - MDPose: Real-Time Multi-Person Pose Estimation via Mixture Density Model [27.849059115252008]
本稿では,人間のキーポイントの結合分布をモデル化し,一段階のインスタンス認識ポーズ推定手法を提案する。
我々のMDPoseは、人間のキーポイントの高次元の関節分布を学習し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-02-17T08:29:33Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - I^2R-Net: Intra- and Inter-Human Relation Network for Multi-Person Pose
Estimation [30.204633647947293]
マルチパーソン・ポーズ推定のためのイントラ・イントラ・ヒューマン・リレーショナル・ネットワーク(I2R-Net)を提案する。
まず、Human内リレーショナルモジュールは1人で動作し、Human内依存関係をキャプチャすることを目的としている。
第2に、Human間関係モジュールは複数のインスタンス間の関係を考慮し、Human間相互作用のキャプチャに重点を置いている。
論文 参考訳(メタデータ) (2022-06-22T07:44:41Z) - Differentiable Multi-Granularity Human Representation Learning for
Instance-Aware Human Semantic Parsing [131.97475877877608]
カテゴリーレベルの人間のセマンティックセグメンテーションとマルチパーソンポーズ推定を共同およびエンドツーエンドで学習するために,新たなボトムアップ方式を提案する。
さまざまな人間の粒度にわたって構造情報を利用する、コンパクトで効率的で強力なフレームワークです。
3つのインスタンス認識型ヒューマンデータセットの実験は、我々のモデルがより効率的な推論で他のボトムアップの代替案よりも優れていることを示している。
論文 参考訳(メタデータ) (2021-03-08T06:55:00Z) - A Global to Local Double Embedding Method for Multi-person Pose
Estimation [10.05687757555923]
本稿では,人検出と関節検出を同時に行うことにより,パイプラインを簡素化する新しい手法を提案する。
マルチパーソンポーズ推定タスクをグローバルからローカルに完了するダブルエンベディング(DE)手法を提案する。
MSCOCO, MPII および CrowdPose のベンチマークを用いて,本手法の有効性と一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-15T03:13:38Z) - Multi-task Learning with Coarse Priors for Robust Part-aware Person
Re-identification [79.33809815035127]
Multi-task Part-Aware Network (MPN) は歩行者画像から意味的に整列した部分レベルの特徴を抽出するように設計されている。
MPNは、トレーニング段階におけるMTL(Multi-task Learning)を介して、身体部分の不整合問題を解決する。
MPNは、最先端のアプローチをかなりのマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2020-03-18T07:10:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。