論文の概要: Generative Human Motion Stylization in Latent Space
- arxiv url: http://arxiv.org/abs/2401.13505v2
- Date: Sat, 24 Feb 2024 03:18:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 00:11:49.302023
- Title: Generative Human Motion Stylization in Latent Space
- Title(参考訳): 潜在空間における生成的ヒューマンモーションスタイライゼーション
- Authors: Chuan Guo, Yuxuan Mu, Xinxin Zuo, Peng Dai, Youliang Yan, Juwei Lu, Li
Cheng
- Abstract要約: 単一動作(遅延)符号の多種多様なスタイリング結果を生成する新しい生成モデルを提案する。
推論では、ユーザーは参照動作やラベルからスタイルキューを使用して動きをスタイル化することができる。
提案手法は, 軽量な設計にもかかわらず, スタイル再現, コンテンツ保存, 一般化において, 最先端のスタイリングモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 42.831468727082694
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human motion stylization aims to revise the style of an input motion while
keeping its content unaltered. Unlike existing works that operate directly in
pose space, we leverage the latent space of pretrained autoencoders as a more
expressive and robust representation for motion extraction and infusion.
Building upon this, we present a novel generative model that produces diverse
stylization results of a single motion (latent) code. During training, a motion
code is decomposed into two coding components: a deterministic content code,
and a probabilistic style code adhering to a prior distribution; then a
generator massages the random combination of content and style codes to
reconstruct the corresponding motion codes. Our approach is versatile, allowing
the learning of probabilistic style space from either style labeled or
unlabeled motions, providing notable flexibility in stylization as well. In
inference, users can opt to stylize a motion using style cues from a reference
motion or a label. Even in the absence of explicit style input, our model
facilitates novel re-stylization by sampling from the unconditional style prior
distribution. Experimental results show that our proposed stylization models,
despite their lightweight design, outperform the state-of-the-art in style
reenactment, content preservation, and generalization across various
applications and settings. Project Page: https://murrol.github.io/GenMoStyle
- Abstract(参考訳): ヒューマンモーションスタイライゼーションは、コンテンツを変更せずに入力モーションのスタイルを改訂することを目的としている。
ポーズ空間で直接動作する既存の作品とは異なり、プリトレーニングされたオートエンコーダの潜在空間を、より表現力が高くロバストな動き抽出と注入の表現として活用する。
そこで本研究では,単一動作 (latent) 符号の多様なスタイライゼーション結果を生成する新しい生成モデルを提案する。
トレーニング中、動作コードは、決定論的コンテンツコードと、事前分布に固執する確率論的スタイルコードとに分解され、生成器は、コンテンツとスタイルコードのランダムな組み合わせをマッサージして対応する動作コードを再構築する。
私たちのアプローチは多用途であり、ラベル付きまたはラベルなしの動作から確率的なスタイル空間を学ぶことができ、スタイリゼーションにも顕著な柔軟性を提供する。
推論では、ユーザーは参照動作やラベルからスタイルキューを使用して動きをスタイル化することができる。
明示的なスタイル入力がなくても,無条件スタイル事前分布からサンプリングすることで,新しい再スタイライゼーションが容易になる。
実験の結果,提案するスタイリゼーションモデルは,軽量な設計にもかかわらず,様々なアプリケーションや設定において最先端のスタイル再現,コンテンツ保存,一般化を上回っていることがわかった。
プロジェクトページ: https://murrol.github.io/genmostyle
関連論文リスト
- SMooDi: Stylized Motion Diffusion Model [46.293854851116215]
本稿では、コンテンツテキストとスタイルシーケンスによって駆動されるスタイル化された動作を生成するための、SMooDiと呼ばれる新しいスティル化モーション拡散モデルを提案する。
提案手法は,従来のスタイル化動作生成手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-17T17:59:42Z) - DPStyler: Dynamic PromptStyler for Source-Free Domain Generalization [43.67213274161226]
Source-Free Domain Generalization (SFDG) は、ソースドメインに頼ることなく、未確認のターゲットドメインに対して機能するモデルを開発することを目的としている。
SFDGにおける研究は、主に大規模視覚言語モデルの既存の知識に大きく依存している。
本稿では,動的PromptStyler(DPStyler)について紹介する。
論文 参考訳(メタデータ) (2024-03-25T12:31:01Z) - Say Anything with Any Style [9.50806457742173]
Anything withAny Styleは、学習したスタイルのコードブックで生成モデルを介して、個別のスタイル表現をクエリします。
提案手法は, リップ同期とスタイル表現の両方の観点から, 最先端の手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-11T01:20:03Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - Customizing Motion in Text-to-Video Diffusion Models [79.4121510826141]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。
入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文 参考訳(メタデータ) (2023-12-07T18:59:03Z) - ZeroEGGS: Zero-shot Example-based Gesture Generation from Speech [6.8527462303619195]
我々は、ゼロショットスタイル制御を例に挙げ、音声駆動ジェスチャ生成のためのニューラルネットワークフレームワークZeroEGGSを提案する。
我々のモデルはスタイル埋め込みを学習するために変分フレームワークを使用し、遅延空間操作やスタイル埋め込みのブレンディングやスケーリングによるスタイルの変更を容易にする。
本研究では, 動作の自然性, 発話, スタイルの描写において, 従来の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-15T18:34:30Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - Unpaired Motion Style Transfer from Video to Animation [74.15550388701833]
1つのアニメーションクリップからもう1つのアニメーションクリップへモーションスタイルを転送する一方で、後者のモーションコンテンツを保存することは、キャラクターアニメーションにおいて長年の課題であった。
本稿では,スタイルラベル付き動きの集合から学習する動きスタイル伝達のための新しいデータ駆動フレームワークを提案する。
本フレームワークでは,映像から直接動作スタイルを抽出し,3次元再構成をバイパスし,これらを3次元入力動作に適用することができる。
論文 参考訳(メタデータ) (2020-05-12T13:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。