論文の概要: DPoser: Diffusion Model as Robust 3D Human Pose Prior
- arxiv url: http://arxiv.org/abs/2312.05541v1
- Date: Sat, 9 Dec 2023 11:18:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 20:10:08.358115
- Title: DPoser: Diffusion Model as Robust 3D Human Pose Prior
- Title(参考訳): DPoser: 人類の3Dマップに先立つロバストな拡散モデル
- Authors: Junzhe Lu, Jing Lin, Hongkun Dou, Yulun Zhang, Yue Deng, Haoqian Wang
- Abstract要約: 拡散モデルに基づいて構築された,頑丈で多目的な人間のポーズであるDPoserを紹介する。
DPoserは、ヒューマンメッシュリカバリ、ポーズ完了、モーションデノイングなど、さまざまなポーズ中心のアプリケーションにシームレスに統合される。
我々の徹底的な実験は、DPoserが複数のタスクにまたがる既存の最先端のポーズよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 50.390006148133764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling human pose is a cornerstone in applications from human-robot
interaction to augmented reality, yet crafting a robust human pose prior
remains a challenge due to biomechanical constraints and diverse human
movements. Traditional priors like VAEs and NDFs often fall short in realism
and generalization, especially in extreme conditions such as unseen noisy
poses. To address these issues, we introduce DPoser, a robust and versatile
human pose prior built upon diffusion models. Designed with optimization
frameworks, DPoser seamlessly integrates into various pose-centric
applications, including human mesh recovery, pose completion, and motion
denoising. Specifically, by formulating these tasks as inverse problems, we
employ variational diffusion sampling for efficient solving. Furthermore,
acknowledging the disparity between the articulated poses we focus on and
structured images in previous research, we propose a truncated timestep
scheduling to boost performance on downstream tasks. Our exhaustive experiments
demonstrate DPoser's superiority over existing state-of-the-art pose priors
across multiple tasks.
- Abstract(参考訳): 人間のポーズをモデル化することは、人間とロボットの相互作用から拡張現実への応用の基盤となっているが、人間のポーズを頑丈に構築することは、生体力学的制約と多様な人間の動きのために依然として課題である。
VAEやNDFのような伝統的な先行は、現実主義や一般化において、特に目に見えないノイズのポーズのような極端な状況では、しばしば不足する。
これらの問題に対処するため,我々は拡散モデルに先立って,頑健で多用途な人間のポーズであるdposerを紹介する。
最適化フレームワークで設計されたDPoserは、ヒューマンメッシュリカバリ、ポーズ補完、モーションデノイングなど、さまざまなポーズ中心のアプリケーションにシームレスに統合される。
具体的には、これらのタスクを逆問題として定式化することにより、効率的な解法に変分拡散サンプリングを用いる。
さらに,従来の研究で焦点を絞ったポーズと構造化画像の相違を認め,下流タスクの性能向上を目的とした時間経過スケジューリングを提案する。
我々の徹底的な実験は、DPoserが複数のタスクにまたがる既存の最先端のポーズよりも優れていることを示す。
関連論文リスト
- Towards Effective Usage of Human-Centric Priors in Diffusion Models for
Text-based Human Image Generation [24.49857926071974]
バニラテキスト画像拡散モデルでは、正確な人間の画像を生成するのに苦労する。
既存のメソッドは、主に余分なイメージでモデルを微調整したり、追加のコントロールを追加することでこの問題に対処する。
本稿では,人間中心の先行概念のモデル微調整段階への直接統合について検討する。
論文 参考訳(メタデータ) (2024-03-08T11:59:32Z) - Multi-Human Mesh Recovery with Transformers [5.420974192779563]
本稿では,マルチスケール機能の導入,集中型注意機構,相対的共同管理という3つの重要な設計選択を特徴とする,合理化トランスフォーマーに基づく設計モデルを提案する。
提案モデルでは、複数の個人を含む様々なベンチマークにおいて、最先端の領域ベースおよび全体像ベースの手法を超越した、大幅な性能向上を示す。
論文 参考訳(メタデータ) (2024-02-26T18:28:05Z) - 3D Human Pose Analysis via Diffusion Synthesis [65.268245109828]
PADSは、逆問題フレームワーク内での一般的な3次元ポーズ解析に取り組むための、初めての拡散ベースのフレームワークである。
その性能は異なるベンチマークで検証され、パイプラインの適応性と堅牢性を示している。
論文 参考訳(メタデータ) (2024-01-17T02:59:34Z) - A Unified Masked Autoencoder with Patchified Skeletons for Motion
Synthesis [16.124755488878044]
本稿では,UNIMASK-Mと呼ばれる新しいタスク独立モデルを提案する。
Vision TransformersVi (Ts)にインスパイアされた私たちのUNIMASK-Mモデルは、人間の動きに存在する時間的関係を活用するために、人間のポーズを身体の一部に分解する。
実験の結果,Human3.6Mデータセット上での人間の動きの予測に成功していることがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:39:44Z) - Motion-DVAE: Unsupervised learning for fast human motion denoising [18.432026846779372]
本研究では,人間の動作の短期的依存を捉えるための動きであるMotion-DVAEを紹介する。
我々は、Motion-DVAEとともに、回帰と最適化に基づくアプローチを統一する教師なし学習型復調手法を導入する。
論文 参考訳(メタデータ) (2023-06-09T12:18:48Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - Learning to Predict Diverse Human Motions from a Single Image via
Mixture Density Networks [9.06677862854201]
本研究では,混合密度ネットワーク(MDN)モデルを用いて,単一画像から将来の人間の動きを予測する新しい手法を提案する。
MDNのマルチモーダルな性質は、既存のディープヒューマンモーション予測アプローチとは対照的に、様々な将来のモーション仮説の生成を可能にしている。
訓練されたモデルでは、入力として画像を直接取り、与えられた条件を満たす複数の可視運動を生成する。
論文 参考訳(メタデータ) (2021-09-13T08:49:33Z) - HuMoR: 3D Human Motion Model for Robust Pose Estimation [100.55369985297797]
HuMoRは、時間的ポーズと形状のロバスト推定のための3Dヒューマンモーションモデルです。
モーションシーケンスの各ステップにおけるポーズの変化の分布を学習する条件付き変分オートエンコーダについて紹介する。
本モデルが大規模モーションキャプチャーデータセットのトレーニング後に多様な動きや体型に一般化することを示す。
論文 参考訳(メタデータ) (2021-05-10T21:04:55Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。