論文の概要: Generative Motion Stylization of Cross-structure Characters within Canonical Motion Space
- arxiv url: http://arxiv.org/abs/2403.11469v2
- Date: Tue, 23 Jul 2024 11:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 22:53:21.571660
- Title: Generative Motion Stylization of Cross-structure Characters within Canonical Motion Space
- Title(参考訳): 正準運動空間におけるクロス構造特性の生成的運動スティル化
- Authors: Jiaxu Zhang, Xin Chen, Gang Yu, Zhigang Tu,
- Abstract要約: 本研究では,多種多様かつ多種多様な構造体上での動作に対して,モーションスタイリングパイプライン(MotionS)を提案する。
私たちの重要な洞察は、モーションスタイルをモダリティのラテント空間に埋め込むことで、標準モーション空間内でのモーションスタイリングを可能にします。
- 参考スコア(独自算出の注目度): 28.628241993271647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stylized motion breathes life into characters. However, the fixed skeleton structure and style representation hinder existing data-driven motion synthesis methods from generating stylized motion for various characters. In this work, we propose a generative motion stylization pipeline, named MotionS, for synthesizing diverse and stylized motion on cross-structure characters using cross-modality style prompts. Our key insight is to embed motion style into a cross-modality latent space and perceive the cross-structure skeleton topologies, allowing for motion stylization within a canonical motion space. Specifically, the large-scale Contrastive-Language-Image-Pre-training (CLIP) model is leveraged to construct the cross-modality latent space, enabling flexible style representation within it. Additionally, two topology-encoded tokens are learned to capture the canonical and specific skeleton topologies, facilitating cross-structure topology shifting. Subsequently, the topology-shifted stylization diffusion is designed to generate motion content for the particular skeleton and stylize it in the shifted canonical motion space using multi-modality style descriptions. Through an extensive set of examples, we demonstrate the flexibility and generalizability of our pipeline across various characters and style descriptions. Qualitative and quantitative comparisons show the superiority of our pipeline over state-of-the-arts, consistently delivering high-quality stylized motion across a broad spectrum of skeletal structures.
- Abstract(参考訳): スティル化された動きは、人生をキャラクターに息を吹き込む。
しかし、固定された骨格構造とスタイル表現は、既存のデータ駆動型モーション合成法において、様々な文字に対するスタイル化されたモーションを生成することを妨げている。
本研究では,クロスモーダルなスタイルのプロンプトを用いて,多種多様でスタイリングされた動作をクロス構造文字に合成する,MotionSと呼ばれる生成型モーションスタイリングパイプラインを提案する。
我々の重要な洞察は、運動スタイルをモダリティのラテント空間に埋め込んで、クロス構造骨格のトポロジーを知覚し、標準運動空間内での運動スタイル化を可能にすることである。
具体的には、CLIP(Contrastive-Language-Image-Pre-Training)モデルを利用して、モード間潜在空間を構築することにより、その内部に柔軟なスタイル表現を可能にする。
さらに、2つのトポロジエンコードされたトークンが学習され、標準および特定の骨格トポロジを捕捉し、クロス構造トポロジシフトを促進する。
その後、トポロジシフトされたスタイリゼーション拡散は、特定の骨格の運動内容を生成し、マルチモーダルスタイル記述を用いてシフトした標準運動空間でスタイリゼーションするように設計されている。
広範な例を通して、さまざまなキャラクタとスタイル記述にまたがるパイプラインの柔軟性と一般化性を実証する。
定性的かつ定量的な比較は、我々のパイプラインが最先端技術よりも優れていることを示している。
関連論文リスト
- SMooDi: Stylized Motion Diffusion Model [46.293854851116215]
本稿では、コンテンツテキストとスタイルシーケンスによって駆動されるスタイル化された動作を生成するための、SMooDiと呼ばれる新しいスティル化モーション拡散モデルを提案する。
提案手法は,従来のスタイル化動作生成手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-17T17:59:42Z) - Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。
我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。
テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-07-11T12:33:56Z) - WalkTheDog: Cross-Morphology Motion Alignment via Phase Manifolds [23.884105024013714]
本稿では,動きデータセットの周期構造と意味を理解するための新しいアプローチを提案する。
我々は,人間や犬などの複数の文字に対する共有位相多様体を,何の監督も受けずに学習する。
改良された動きマッチングフレームワークと組み合わせて、いくつかのアプリケーションにおいて、時間と意味のアライメントの多様体の能力を実証する。
論文 参考訳(メタデータ) (2024-07-11T09:31:05Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - Neural Marionette: Unsupervised Learning of Motion Skeleton and Latent
Dynamics from Volumetric Video [5.456297943378056]
本稿では、動的シーケンスから骨格構造を検出する教師なしアプローチであるNeural Marionetteを提案する。
得られた構造は、4次元の運動列を表す骨格のハンドラベルされた基底真理にさえ匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2022-02-17T02:44:16Z) - Motion Puzzle: Arbitrary Motion Style Transfer by Body Part [6.206196935093063]
モーション・パズル(Motion Puzzle)は、いくつかの重要な点において最先端のモーション・スタイル・トランスファー・ネットワークである。
本フレームワークは,異なる身体部位に対する複数のスタイル動作からスタイル特徴を抽出し,対象身体部位に局所的に伝達する。
フラッピングやスタッガーのようなダイナミックな動きによって表現されるスタイルを、以前の作品よりもはるかに良く捉えることができる。
論文 参考訳(メタデータ) (2022-02-10T19:56:46Z) - Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。
提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。
大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文 参考訳(メタデータ) (2020-08-24T02:11:02Z) - Euclideanizing Flows: Diffeomorphic Reduction for Learning Stable
Dynamical Systems [74.80320120264459]
本研究では、限られた数の人間の実演からそのような動きを学ぶためのアプローチを提案する。
複素運動は安定な力学系のロールアウトとして符号化される。
このアプローチの有効性は、確立されたベンチマーク上での検証と、現実世界のロボットシステム上で収集されたデモによって実証される。
論文 参考訳(メタデータ) (2020-05-27T03:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。