論文の概要: AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation
- arxiv url: http://arxiv.org/abs/2403.17934v1
- Date: Tue, 26 Mar 2024 17:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 14:08:24.513464
- Title: AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation
- Title(参考訳): AiOS:オール・イン・ワン・ワン・ステージ表現型ヒューマン・メッセージと形状推定
- Authors: Qingping Sun, Yanjun Wang, Ailing Zeng, Wanqi Yin, Chen Wei, Wenjia Wang, Haiyi Mei, Chi Sing Leung, Ziwei Liu, Lei Yang, Zhongang Cai,
- Abstract要約: 人間のポーズと形状の復元のための新しいオールインワンステージフレームワークであるAiOSを、追加の人間検出ステップなしで導入する。
まず、画像中の人間の位置を探索し、各インスタンスのグローバルな機能をエンコードするために、人間のトークンを使用します。
そして、画像中の人間の関節を探索し、きめ細かい局所的特徴を符号化するジョイント関連トークンを導入する。
- 参考スコア(独自算出の注目度): 55.179287851188036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Expressive human pose and shape estimation (a.k.a. 3D whole-body mesh recovery) involves the human body, hand, and expression estimation. Most existing methods have tackled this task in a two-stage manner, first detecting the human body part with an off-the-shelf detection model and inferring the different human body parts individually. Despite the impressive results achieved, these methods suffer from 1) loss of valuable contextual information via cropping, 2) introducing distractions, and 3) lacking inter-association among different persons and body parts, inevitably causing performance degradation, especially for crowded scenes. To address these issues, we introduce a novel all-in-one-stage framework, AiOS, for multiple expressive human pose and shape recovery without an additional human detection step. Specifically, our method is built upon DETR, which treats multi-person whole-body mesh recovery task as a progressive set prediction problem with various sequential detection. We devise the decoder tokens and extend them to our task. Specifically, we first employ a human token to probe a human location in the image and encode global features for each instance, which provides a coarse location for the later transformer block. Then, we introduce a joint-related token to probe the human joint in the image and encoder a fine-grained local feature, which collaborates with the global feature to regress the whole-body mesh. This straightforward but effective model outperforms previous state-of-the-art methods by a 9% reduction in NMVE on AGORA, a 30% reduction in PVE on EHF, a 10% reduction in PVE on ARCTIC, and a 3% reduction in PVE on EgoBody.
- Abstract(参考訳): 表現力のある人間のポーズと形状の推定(つまり、全身メッシュの回復)には、人体、手、表情の推定が含まれる。
既存のほとんどの手法では、まず人体部位をオフザシェルフ検出モデルで検出し、異なる人体部位を個別に推定することで、この課題に2段階的に取り組んできた。
素晴らしい結果が得られたにも拘わらず、これらの手法は苦しむ。
1)収穫による貴重な文脈情報の喪失
2【注意散らしの導入】
3) 異なる人物と身体部位の相互関連が欠如しており, 特に混み合った場面において, 必然的に性能低下を引き起こしている。
これらの問題に対処するため、我々は新しいオール・イン・ワン・ステージ・フレームワークであるAiOSを導入する。
具体的には,多人数の人体メッシュ回復タスクを,様々な逐次検出を伴うプログレッシブセット予測問題として扱うDETRをベースとした手法を提案する。
私たちはデコーダトークンを考案し、タスクに拡張します。
具体的には、まず人間のトークンを用いて画像中の人間の位置を探索し、各インスタンスのグローバルな特徴を符号化し、後続のトランスフォーマーブロックの粗い位置を提供する。
次に、画像中のヒトの関節を探索し、局所的な微細な特徴を符号化するジョイント関連トークンを導入し、グローバルな特徴と協調して全身メッシュを復元する。
AGORAのNMVEの9%の削減、EHFのPVEの30%の削減、ARCTICのPVEの10%の削減、EgoBodyのPVEの3%の削減により、従来の最先端手法よりも優れている。
関連論文リスト
- Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Probabilistic Human Mesh Recovery in 3D Scenes from Egocentric Views [32.940614931864154]
身体のポーズ分布をモデル化するシーン条件拡散法を提案する。
この方法は、可塑性ヒトとシーンの相互作用において体を生成する。
目に見える関節の精度と、目に見えない身体の部分の多様性に優れる。
論文 参考訳(メタデータ) (2023-04-12T17:58:57Z) - Explicit Occlusion Reasoning for Multi-person 3D Human Pose Estimation [33.86986028882488]
咬合は, 咬合者の形状, 外観, 位置の変動が大きいため, 単眼多面体3次元ポーズ推定において大きな脅威となる。
既存のメソッドは、ポーズ先/制約、データ拡張、暗黙の推論でオクルージョンを処理しようとする。
本研究では、ボトムアップ型多人数ポーズ推定を大幅に改善する、このプロセスを明示的にモデル化する手法を開発した。
論文 参考訳(メタデータ) (2022-07-29T22:12:50Z) - KTN: Knowledge Transfer Network for Learning Multi-person 2D-3D
Correspondences [77.56222946832237]
画像中の複数の人物の密着度を検出するための新しい枠組みを提案する。
提案手法は知識伝達ネットワーク(KTN)の2つの問題に対処する。
特徴解像度を同時に維持し、背景画素を抑圧し、この戦略は精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-06-21T03:11:37Z) - Dual networks based 3D Multi-Person Pose Estimation from Monocular Video [42.01876518017639]
複数人の3Dポーズ推定はシングルポーズ推定よりも難しい。
既存のトップダウンとボトムアップのアプローチでは、推定が検出エラーに悩まされる。
我々は,トップダウンアプローチとボトムアップアプローチを統合して,その強みを活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T08:53:38Z) - Monocular 3D Multi-Person Pose Estimation by Integrating Top-Down and
Bottom-Up Networks [33.974241749058585]
マルチパーソンポーズ推定は、人間の検出が間違っている可能性があり、人間の結合群は信頼できない。
既存のトップダウン手法は人間の検出に依存しているため、これらの問題に悩まされる。
我々は,その強みを生かすために,トップダウンアプローチとボトムアップアプローチの統合を提案する。
論文 参考訳(メタデータ) (2021-04-05T07:05:21Z) - Neural Descent for Visual 3D Human Pose and Shape [67.01050349629053]
入力RGB画像から3次元のポーズと形状を復元するディープニューラルネットワーク手法を提案する。
我々は最近導入された表現力のあるボディ統計モデルGHUMに頼っている。
我々の方法論の中心は、HUmanNeural Descent (HUND)と呼ばれるアプローチの学習と最適化である。
論文 参考訳(メタデータ) (2020-08-16T13:38:41Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z) - HEMlets PoSh: Learning Part-Centric Heatmap Triplets for 3D Human Pose
and Shape Estimation [60.35776484235304]
本研究は, 中間状態部分熱マップトリプレット(HEMlets)を導入し, 検出された2次元関節を三次元空間に持ち上げる不確実性に対処しようとするものである。
HEMletsは3つのジョイントヒートマップを使用して、各骨格体部に対するエンドジョイントの相対的な深さ情報を表す。
Convolutional Network (ConvNet) は、入力画像からHEMletを予測し、次にボリュームのジョイント・ヒートマップレグレッションを学習する。
論文 参考訳(メタデータ) (2020-03-10T04:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。