論文の概要: QPoser: Quantized Explicit Pose Prior Modeling for Controllable Pose
Generation
- arxiv url: http://arxiv.org/abs/2312.01104v1
- Date: Sat, 2 Dec 2023 10:44:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 19:03:47.992881
- Title: QPoser: Quantized Explicit Pose Prior Modeling for Controllable Pose
Generation
- Title(参考訳): QPoser:制御可能なPose生成のための量子化された明示的なPose事前モデリング
- Authors: Yumeng Li, Yaoxiang Ding, Zhong Ren, Kun Zhou
- Abstract要約: 望ましい明示的な事前ポーズは、3つの望ましい能力を満たすべきである。
QPoserは、正確性と表現性を保証する制御可能な明示的なポーズ先行モデルである。
QPoserは、表現力と正しいポーズを表現する最先端のアプローチを著しく上回っている。
- 参考スコア(独自算出の注目度): 27.93210245241248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explicit pose prior models compress human poses into latent representations
for using in pose-related downstream tasks. A desirable explicit pose prior
model should satisfy three desirable abilities: 1) correctness, i.e. ensuring
to generate physically possible poses; 2) expressiveness, i.e. ensuring to
preserve details in generation; 3) controllability, meaning that generation
from reference poses and explicit instructions should be convenient. Existing
explicit pose prior models fail to achieve all of three properties, in special
controllability. To break this situation, we propose QPoser, a highly
controllable explicit pose prior model which guarantees correctness and
expressiveness. In QPoser, a multi-head vector quantized autoencoder (MS-VQVAE)
is proposed for obtaining expressive and distributed pose representations.
Furthermore, a global-local feature integration mechanism (GLIF-AE) is utilized
to disentangle the latent representation and integrate full-body information
into local-joint features. Experimental results show that QPoser significantly
outperforms state-of-the-art approaches in representing expressive and correct
poses, meanwhile is easily to be used for detailed conditional generation from
reference poses and prompting instructions.
- Abstract(参考訳): 明示的なポーズ事前モデルは、ポーズ関連の下流タスクで使用するために、人間のポーズを潜在表現に圧縮します。
望ましい明示的なポーズ 事前のモデルは3つの望ましい能力を満たすべきである。
1) 正しさ,すなわち,物理的に可能なポーズを確実に生成すること
2)表現力,すなわち,世代内で詳細を保存することを保証すること
3)制御性、つまり参照ポーズと明示的な命令の生成は便利であるべきです。
既存の明示的なポーズ先行モデルは、特別な可制御性において、3つの特性の全てを達成できない。
この状況を打破するため,我々は,正確性と表現力を保証する高度に制御可能な明示的なポーズ先行モデルであるqposerを提案する。
QPoserでは,多頭部ベクトル量子化オートエンコーダ(MS-VQVAE)を提案する。
さらに、グローバルローカル特徴統合機構(GLIF-AE)を用いて、潜伏表現をアンタングル化し、全体情報を局所結合特徴に統合する。
実験の結果,QPoserは表現的・正しいポーズの表現における最先端のアプローチよりも優れており,参照ポーズからの詳細な条件生成や指示の促しにも容易に利用できることがわかった。
関連論文リスト
- UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing [79.68232381605661]
さまざまなモダリティにまたがって人間のポーズを理解し、生成し、編集するためのフレームワークであるUniPoseを提案する。
具体的には、3Dポーズを個別のポーズトークンに変換するためにポーズトークンライザを適用し、統一語彙内のLCMへのシームレスな統合を可能にする。
統一的な学習戦略から恩恵を受けるUniPoseは、さまざまなポーズ関連タスク間で知識を効果的に伝達し、目に見えないタスクに適応し、拡張された能力を示す。
論文 参考訳(メタデータ) (2024-11-25T08:06:30Z) - Neural Pose Representation Learning for Generating and Transferring Non-Rigid Object Poses [11.614034196935899]
本稿では,3次元変形可能なオブジェクトに対するポーズの表現を学習するための新しい手法を提案する。
1)オブジェクトの同一性からポーズ情報を遠ざけること、2)ポーズのバリエーションの学習を容易にすること、3)他のオブジェクトの同一性にポーズ情報を転送すること。
これらの特性に基づいて, 同一性およびポーズの多様性を有する3次元変形可能な物体の生成を可能にする。
論文 参考訳(メタデータ) (2024-06-14T05:33:01Z) - Stable-Pose: Leveraging Transformers for Pose-Guided Text-to-Image Generation [32.190055780969466]
Stable-Poseは、粗い注目マスキング戦略を視覚変換器に導入する新しいアダプタモデルである。
我々は、ViTのクエリキー自己保持機構を利用して、人間のポーズスケルトンにおける異なる解剖学的部分間の相互接続を探索する。
Stable-PoseはLAION-HumanデータセットのAPスコア57.1を達成し、確立したControlNetよりも約13%改善した。
論文 参考訳(メタデータ) (2024-06-04T16:54:28Z) - ManiPose: Manifold-Constrained Multi-Hypothesis 3D Human Pose Estimation [54.86887812687023]
ほとんどの3D-HPE法は回帰モデルに依存しており、入力と出力の1対1のマッピングを前提としている。
提案するManiPoseは,2次元入力毎に複数の候補3次元ポーズを提案可能な,新しい多様体制約型マルチハイポテーシスモデルである。
従来のマルチハイブリッドアプローチとは異なり、我々のソリューションは完全に教師付きであり、複雑な生成モデルに依存しない。
論文 参考訳(メタデータ) (2023-12-11T13:50:10Z) - Learning 3D-aware Image Synthesis with Unknown Pose Distribution [68.62476998646866]
既存の3D画像合成法は、トレーニングセットに基づいて事前に推定された3Dポーズ分布に依存する。
本研究は3次元ポーズ先行条件から生成放射場を解放するPoF3Dを提案する。
論文 参考訳(メタデータ) (2023-01-18T18:47:46Z) - PoseTrans: A Simple Yet Effective Pose Transformation Augmentation for
Human Pose Estimation [40.50255017107963]
我々は多彩なポーズを持つ新しいトレーニングサンプルを作成するために、Pose Transformation (PoseTrans)を提案する。
また,ポーズの規則性を測定するためにPose Clustering Module (PCM)を提案する。
提案手法は効率的で実装が容易であり,既存のポーズ推定モデルのトレーニングパイプラインに容易に組み込むことができる。
論文 参考訳(メタデータ) (2022-08-16T14:03:01Z) - Pose-NDF: Modeling Human Pose Manifolds with Neural Distance Fields [47.62275563070933]
ニューラル距離場(NDF)に基づく可塑性人間のポーズの連続モデルを提案する。
Pose-NDFは、ニューラルネットワークの暗黙関数のゼロレベル集合として可塑性ポーズの多様体を学習する。
ランダムサンプリングとプロジェクションにより、VAEベースの手法よりも多様なポーズを生成することができる。
論文 参考訳(メタデータ) (2022-07-27T21:46:47Z) - PoseAug: A Differentiable Pose Augmentation Framework for 3D Human Pose
Estimation [83.50127973254538]
既存の3D人間のポーズ推定器は、新しいデータセットへの一般化性能が悪い。
PoseAugは、より多くの多様性に向けて利用可能なトレーニングのポーズを強化することを学ぶ新しい自動増強フレームワークです。
論文 参考訳(メタデータ) (2021-05-06T06:57:42Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。