論文の概要: PoseVocab: Learning Joint-structured Pose Embeddings for Human Avatar
Modeling
- arxiv url: http://arxiv.org/abs/2304.13006v2
- Date: Sun, 14 May 2023 13:15:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 20:53:09.795445
- Title: PoseVocab: Learning Joint-structured Pose Embeddings for Human Avatar
Modeling
- Title(参考訳): PoseVocab:人間のアバターモデリングのための共同構造ポス埋め込み学習
- Authors: Zhe Li, Zerong Zheng, Yuxiao Liu, Boyao Zhou, Yebin Liu
- Abstract要約: 提案するPoseVocabは,高忠実度人間の細部をエンコードできる新しいポーズ符号化手法である。
キャラクターのマルチビューRGBビデオが与えられた後、PoseVocabはトレーニングポーズに基づいてキーポーズと潜在埋め込みを構築する。
実験により,本手法は他の最先端のベースラインよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 30.93155530590843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating pose-driven human avatars is about modeling the mapping from the
low-frequency driving pose to high-frequency dynamic human appearances, so an
effective pose encoding method that can encode high-fidelity human details is
essential to human avatar modeling. To this end, we present PoseVocab, a novel
pose encoding method that encourages the network to discover the optimal pose
embeddings for learning the dynamic human appearance. Given multi-view RGB
videos of a character, PoseVocab constructs key poses and latent embeddings
based on the training poses. To achieve pose generalization and temporal
consistency, we sample key rotations in $so(3)$ of each joint rather than the
global pose vectors, and assign a pose embedding to each sampled key rotation.
These joint-structured pose embeddings not only encode the dynamic appearances
under different key poses, but also factorize the global pose embedding into
joint-structured ones to better learn the appearance variation related to the
motion of each joint. To improve the representation ability of the pose
embedding while maintaining memory efficiency, we introduce feature lines, a
compact yet effective 3D representation, to model more fine-grained details of
human appearances. Furthermore, given a query pose and a spatial position, a
hierarchical query strategy is introduced to interpolate pose embeddings and
acquire the conditional pose feature for dynamic human synthesis. Overall,
PoseVocab effectively encodes the dynamic details of human appearance and
enables realistic and generalized animation under novel poses. Experiments show
that our method outperforms other state-of-the-art baselines both qualitatively
and quantitatively in terms of synthesis quality. Code is available at
https://github.com/lizhe00/PoseVocab.
- Abstract(参考訳): ポーズ駆動ヒトアバターの作成は、低周波駆動ポーズから高周波動的人間の外観へのマッピングをモデル化するため、人間のアバターモデリングには、高忠実度な人間の詳細をエンコードできる効果的なポーズ符号化法が不可欠である。
そこで本研究では,ネットワークが動的に人間の表情を学習するための最適なポーズ埋め込みを見つけることを促す,新しいポーズ符号化手法であるpositvocabを提案する。
キャラクターのマルチビューRGBビデオが与えられた後、PoseVocabはトレーニングポーズに基づいてキーポーズと潜在埋め込みを構築する。
ポーズ一般化と時間的一貫性を達成するために,大域的なポーズベクトルではなく,各ジョイントの$so(3)$でキー回転をサンプリングし,各サンプルされたキー回転に対してポーズ埋め込みを割り当てる。
これらのジョイント構造のポーズ埋め込みは、異なるキーポーズの下でのダイナミックな外観をエンコードするだけでなく、ジョイント構造に埋め込まれたグローバルなポーズを分解し、各ジョイントの動きに関連する外観の変動をよりよく学習する。
メモリ効率を保ちながらポーズ埋め込みの表現能力を向上するために,よりきめ細かな人間の外観をモデル化するために,コンパクトで効果的な3D表現である特徴線を導入する。
さらに、クエリポーズと空間的位置が与えられた場合、ポーズ埋め込みを補間し、動的ヒト合成のための条件付きポーズ特徴を取得する階層的なクエリ戦略を導入する。
全体的に、ponsvocabは人間の外観の動的な詳細を効果的にエンコードし、新しいポーズの下でリアルで一般化されたアニメーションを可能にする。
実験により,本手法は質的および定量的に合成品質の点で,他の最先端ベースラインよりも優れていることが示された。
コードはhttps://github.com/lizhe00/posevocabで入手できる。
関連論文リスト
- UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing [79.68232381605661]
さまざまなモダリティにまたがって人間のポーズを理解し、生成し、編集するためのフレームワークであるUniPoseを提案する。
具体的には、3Dポーズを個別のポーズトークンに変換するためにポーズトークンライザを適用し、統一語彙内のLCMへのシームレスな統合を可能にする。
統一的な学習戦略から恩恵を受けるUniPoseは、さまざまなポーズ関連タスク間で知識を効果的に伝達し、目に見えないタスクに適応し、拡張された能力を示す。
論文 参考訳(メタデータ) (2024-11-25T08:06:30Z) - VINECS: Video-based Neural Character Skinning [82.39776643541383]
ポーズ依存のスキン重みを持つ完全リップ文字を作成するための完全自動アプローチを提案する。
提案手法は高密度4Dスキャンに頼らず,最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-03T08:35:53Z) - Pose Guided Human Image Synthesis with Partially Decoupled GAN [25.800174118151638]
Pose Guided Human Image Synthesis (PGHIS) は、人間のイメージを基準ポーズから目標ポーズへ変換する難しいタスクである。
本研究では,人体を複数の部分に分解し,現実的な人物像の合成を誘導する手法を提案する。
さらに,PGHISのためのマルチヘッドアテンションベースモジュールを設計する。
論文 参考訳(メタデータ) (2022-10-07T15:31:37Z) - Single-view 3D Body and Cloth Reconstruction under Complex Poses [37.86174829271747]
既存の暗黙の関数ベースモデルを拡張して、任意のポーズと自己排他的な手足を持つ人間の画像を扱う。
入力画像を低精細度で3次元のボディ形状にマッピングする暗黙の関数を学習する。
次に、スムーズな表面を条件とした変位マップを学習し、衣服や身体の高周波の詳細を符号化する。
論文 参考訳(メタデータ) (2022-05-09T07:34:06Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Neural Actor: Neural Free-view Synthesis of Human Actors with Pose
Control [80.79820002330457]
任意の視点と任意の制御可能なポーズの下での人間の高品質な合成法を提案する。
提案手法は,新しいポーズ合成法と同様に,再生時の最先端技術よりも優れた品質を実現し,トレーニングポーズと大きく異なる新しいポーズを一般化することができる。
論文 参考訳(メタデータ) (2021-06-03T17:40:48Z) - SCANimate: Weakly Supervised Learning of Skinned Clothed Avatar Networks [54.94737477860082]
本論文では,着る人間の生の3Dスキャンをイメージ可能なアバターに変える,エンドツーエンドのトレーニング可能なフレームワークを提案する。
SCANimateはカスタマイズされたメッシュテンプレートや表面メッシュ登録に依存しません。
本手法はポーズ認識型外観モデルに適用でき,完全にテクスチャ化されたアバターを生成できる。
論文 参考訳(メタデータ) (2021-04-07T17:59:58Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。