論文の概要: SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion
- arxiv url: http://arxiv.org/abs/2405.02844v1
- Date: Sun, 5 May 2024 08:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 18:00:36.479146
- Title: SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion
- Title(参考訳): SMCD:Mamba-based Diffusionによる高現実性モーションスタイルトランスファー
- Authors: Ziyun Qian, Zeyu Xiao, Zhenyi Wu, Dingkang Yang, Mingcheng Li, Shunli Wang, Shuaibing Wang, Dongliang Kou, Lihua Zhang,
- Abstract要約: スタイル転送は映画、ゲーム、メタバースといったマルチメディアシナリオに広く適用されている。
この分野での現在の研究のほとんどはGANを採用しており、不安定性と収束の問題に繋がる可能性がある。
動作のスタイル特徴をより包括的に学習できるSMCD(Style Motion Conditioned Diffusion)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.426879081036116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion style transfer is a significant research direction in multimedia applications. It enables the rapid switching of different styles of the same motion for virtual digital humans, thus vastly increasing the diversity and realism of movements. It is widely applied in multimedia scenarios such as movies, games, and the Metaverse. However, most of the current work in this field adopts the GAN, which may lead to instability and convergence issues, making the final generated motion sequence somewhat chaotic and unable to reflect a highly realistic and natural style. To address these problems, we consider style motion as a condition and propose the Style Motion Conditioned Diffusion (SMCD) framework for the first time, which can more comprehensively learn the style features of motion. Moreover, we apply Mamba model for the first time in the motion style transfer field, introducing the Motion Style Mamba (MSM) module to handle longer motion sequences. Thirdly, aiming at the SMCD framework, we propose Diffusion-based Content Consistency Loss and Content Consistency Loss to assist the overall framework's training. Finally, we conduct extensive experiments. The results reveal that our method surpasses state-of-the-art methods in both qualitative and quantitative comparisons, capable of generating more realistic motion sequences.
- Abstract(参考訳): モーションスタイル転送はマルチメディアアプリケーションにおいて重要な研究方向である。
これは、仮想デジタル人間に対して同じ動きの異なるスタイルを迅速に切り替えることを可能にし、それによって運動の多様性とリアリズムを大幅に増大させる。
映画、ゲーム、メタバースといったマルチメディアのシナリオで広く使われている。
しかし、この分野での現在の研究のほとんどは不安定性や収束性の問題に繋がるGANを採用しており、最終的な動き列はやや混乱しており、非常に現実的で自然なスタイルを反映できない。
これらの問題に対処するため,我々はスタイル・モーションを条件として検討し,スタイル・モーション・コンディション・ディフュージョン(SMCD)フレームワークを初めて提案する。
さらに,より長い動き列を扱うための動作スタイル・マンバ (MSM) モジュールを導入し,動作スタイルの移動場に初めてマンバモデルを適用した。
第3に、SMCDフレームワークを目標として、拡散に基づくコンテンツ一貫性損失とコンテンツ一貫性損失を提案し、フレームワーク全体のトレーニングを支援する。
最後に、広範な実験を行う。
その結果,本手法は質的,定量的両比較において最先端の手法を超越し,より現実的な動作系列を生成することができることがわかった。
関連論文リスト
- Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Motion Mamba: Efficient and Long Sequence Motion Generation [26.777455596989526]
状態空間モデル(SSM)の最近の進歩は、長いシーケンスモデリングにおいてかなりの可能性を秘めている。
我々は,SSMを用いた先駆的な動き生成モデルを示す,シンプルで効率的な手法であるモーション・マンバを提案する。
提案手法は,HumanML3DおよびKIT-MLデータセットの最大50%のFID改善と最大4倍の高速化を実現する。
論文 参考訳(メタデータ) (2024-03-12T10:25:29Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - RSMT: Real-time Stylized Motion Transition for Characters [15.856276818061891]
実時間ストライズされた動き遷移法(RSMT)を提案する。
本手法は, 一般運動多様体モデルとスタイル運動サンプリング器の2つの重要な独立成分から構成される。
提案手法は, 高速, 高品質, 汎用性, 制御可能であることを証明した。
論文 参考訳(メタデータ) (2023-06-21T01:50:04Z) - Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文 参考訳(メタデータ) (2023-02-22T11:42:44Z) - HumanMAC: Masked Motion Completion for Human Motion Prediction [62.279925754717674]
人間の動き予測はコンピュータビジョンとコンピュータグラフィックスの古典的な問題である。
従来の効果はエンコーディング・デコード方式に基づく経験的性能を実現している。
本稿では,新しい視点から新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-02-07T18:34:59Z) - Self-supervised Motion Learning from Static Images [36.85209332144106]
Motion from Static Images (MoSI) はモーション情報をエンコードすることを学ぶ。
MoSIは、下流のデータセットを微調整することなく、大きな動きを持つ領域を発見することができる。
下流のデータセットを微調整することなく、MoSIが大きな動きを持つ領域を発見できることを実証します。
論文 参考訳(メタデータ) (2021-04-01T03:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。