論文の概要: SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion
- arxiv url: http://arxiv.org/abs/2405.02844v2
- Date: Tue, 10 Jun 2025 16:34:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:38.458263
- Title: SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion
- Title(参考訳): SMCD:Mamba-based Diffusionによる高現実性モーションスタイルトランスファー
- Authors: Ziyun Qian, Zeyu Xiao, Xingliang Jin, Dingkang Yang, Mingcheng Li, Zhenyi Wu, Dongliang Kou, Peng Zhai, Lihua Zhang,
- Abstract要約: モーションスタイルの転送により、仮想デジタル人間は同じ動きの異なるスタイルを素早く切り替えることができる。
既存の手法の多くは2ストリーム構造を採用しており、内容とスタイルの動作の本質的な関係を無視する傾向にある。
コンテンツとスタイルの両方から特徴を同時に抽出するUMSD(Unified Motion Style Diffusion)フレームワークを提案する。
また,動作スタイル変換の分野における最初のアプローチである運動スタイル・マンバ(MSM)デノイザを導入し,マンバの強力なシーケンスモデリング能力を活用する。
- 参考スコア(独自算出の注目度): 12.426879081036116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion style transfer is a significant research direction in the field of computer vision, enabling virtual digital humans to rapidly switch between different styles of the same motion, thereby significantly enhancing the richness and realism of movements. It has been widely applied in multimedia scenarios such as films, games, and the metaverse. However, most existing methods adopt a two-stream structure, which tends to overlook the intrinsic relationship between content and style motions, leading to information loss and poor alignment. Moreover, when handling long-range motion sequences, these methods fail to effectively learn temporal dependencies, ultimately resulting in unnatural generated motions. To address these limitations, we propose a Unified Motion Style Diffusion (UMSD) framework, which simultaneously extracts features from both content and style motions and facilitates sufficient information interaction. Additionally, we introduce the Motion Style Mamba (MSM) denoiser, the first approach in the field of motion style transfer to leverage Mamba's powerful sequence modelling capability. Better capturing temporal relationships generates more coherent stylized motion sequences. Third, we design a diffusion-based content consistency loss and a style consistency loss to constrain the framework, ensuring that it inherits the content motion while effectively learning the characteristics of the style motion. Finally, extensive experiments demonstrate that our method outperforms state-of-the-art (SOTA) methods qualitatively and quantitatively, achieving more realistic and coherent motion style transfer.
- Abstract(参考訳): 動きスタイル転送はコンピュータビジョンの分野で重要な研究方向であり、仮想デジタル人間が同じ動きの異なるスタイルを素早く切り替えることを可能にし、それによって動きの豊かさと現実性を大幅に向上させる。
映画、ゲーム、メタバースといったマルチメディアのシナリオで広く使われている。
しかし、既存のほとんどの手法では2ストリーム構造を採用しており、内容とスタイルの動きの本質的な関係を見落とし、情報損失やアライメントの低下を招く傾向にある。
さらに、長距離動き列を扱う場合、これらの手法は時間的依存を効果的に学習できず、最終的には不自然な動きをもたらす。
これらの制約に対処するため、コンテンツとスタイルの両方から特徴を同時に抽出し、十分な情報交換を容易にする統一動作スタイル拡散(UMSD)フレームワークを提案する。
さらに,動作スタイル変換の分野における最初のアプローチである運動スタイル・マンバ(MSM)デノイザを導入し,マンバの強力なシーケンスモデリング能力を活用する。
時間的関係をよりよく捉えることで、よりコヒーレントなスタイル化された動き列が生成される。
第3に、拡散型コンテンツ一貫性損失とスタイル一貫性損失を設計し、その枠組みを制約し、スタイル動作の特徴を効果的に学習しながら、コンテンツ動作を継承することを保証する。
最後に,本手法は定性的かつ定量的にSOTA法を上回り,より現実的でコヒーレントな動作スタイルの伝達を実現することを実証した。
関連論文リスト
- StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion [14.213279927964903]
StyleMotifはStylized Motion Latent Diffusionモデルである。
複数のモダリティからコンテンツとスタイルの両方に条件付けされた動作を生成する。
論文 参考訳(メタデータ) (2025-03-27T17:59:46Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Motion Mamba: Efficient and Long Sequence Motion Generation [26.777455596989526]
状態空間モデル(SSM)の最近の進歩は、長いシーケンスモデリングにおいてかなりの可能性を秘めている。
我々は,SSMを用いた先駆的な動き生成モデルを示す,シンプルで効率的な手法であるモーション・マンバを提案する。
提案手法は,HumanML3DおよびKIT-MLデータセットの最大50%のFID改善と最大4倍の高速化を実現する。
論文 参考訳(メタデータ) (2024-03-12T10:25:29Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - RSMT: Real-time Stylized Motion Transition for Characters [15.856276818061891]
実時間ストライズされた動き遷移法(RSMT)を提案する。
本手法は, 一般運動多様体モデルとスタイル運動サンプリング器の2つの重要な独立成分から構成される。
提案手法は, 高速, 高品質, 汎用性, 制御可能であることを証明した。
論文 参考訳(メタデータ) (2023-06-21T01:50:04Z) - Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文 参考訳(メタデータ) (2023-02-22T11:42:44Z) - HumanMAC: Masked Motion Completion for Human Motion Prediction [62.279925754717674]
人間の動き予測はコンピュータビジョンとコンピュータグラフィックスの古典的な問題である。
従来の効果はエンコーディング・デコード方式に基づく経験的性能を実現している。
本稿では,新しい視点から新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-02-07T18:34:59Z) - Self-supervised Motion Learning from Static Images [36.85209332144106]
Motion from Static Images (MoSI) はモーション情報をエンコードすることを学ぶ。
MoSIは、下流のデータセットを微調整することなく、大きな動きを持つ領域を発見することができる。
下流のデータセットを微調整することなく、MoSIが大きな動きを持つ領域を発見できることを実証します。
論文 参考訳(メタデータ) (2021-04-01T03:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。