論文の概要: SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion
- arxiv url: http://arxiv.org/abs/2405.02844v2
- Date: Tue, 10 Jun 2025 16:34:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:38.458263
- Title: SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion
- Title(参考訳): SMCD:Mamba-based Diffusionによる高現実性モーションスタイルトランスファー
- Authors: Ziyun Qian, Zeyu Xiao, Xingliang Jin, Dingkang Yang, Mingcheng Li, Zhenyi Wu, Dongliang Kou, Peng Zhai, Lihua Zhang,
- Abstract要約: モーションスタイルの転送により、仮想デジタル人間は同じ動きの異なるスタイルを素早く切り替えることができる。
既存の手法の多くは2ストリーム構造を採用しており、内容とスタイルの動作の本質的な関係を無視する傾向にある。
コンテンツとスタイルの両方から特徴を同時に抽出するUMSD(Unified Motion Style Diffusion)フレームワークを提案する。
また,動作スタイル変換の分野における最初のアプローチである運動スタイル・マンバ(MSM)デノイザを導入し,マンバの強力なシーケンスモデリング能力を活用する。
- 参考スコア(独自算出の注目度): 12.426879081036116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion style transfer is a significant research direction in the field of computer vision, enabling virtual digital humans to rapidly switch between different styles of the same motion, thereby significantly enhancing the richness and realism of movements. It has been widely applied in multimedia scenarios such as films, games, and the metaverse. However, most existing methods adopt a two-stream structure, which tends to overlook the intrinsic relationship between content and style motions, leading to information loss and poor alignment. Moreover, when handling long-range motion sequences, these methods fail to effectively learn temporal dependencies, ultimately resulting in unnatural generated motions. To address these limitations, we propose a Unified Motion Style Diffusion (UMSD) framework, which simultaneously extracts features from both content and style motions and facilitates sufficient information interaction. Additionally, we introduce the Motion Style Mamba (MSM) denoiser, the first approach in the field of motion style transfer to leverage Mamba's powerful sequence modelling capability. Better capturing temporal relationships generates more coherent stylized motion sequences. Third, we design a diffusion-based content consistency loss and a style consistency loss to constrain the framework, ensuring that it inherits the content motion while effectively learning the characteristics of the style motion. Finally, extensive experiments demonstrate that our method outperforms state-of-the-art (SOTA) methods qualitatively and quantitatively, achieving more realistic and coherent motion style transfer.
- Abstract(参考訳): 動きスタイル転送はコンピュータビジョンの分野で重要な研究方向であり、仮想デジタル人間が同じ動きの異なるスタイルを素早く切り替えることを可能にし、それによって動きの豊かさと現実性を大幅に向上させる。
映画、ゲーム、メタバースといったマルチメディアのシナリオで広く使われている。
しかし、既存のほとんどの手法では2ストリーム構造を採用しており、内容とスタイルの動きの本質的な関係を見落とし、情報損失やアライメントの低下を招く傾向にある。
さらに、長距離動き列を扱う場合、これらの手法は時間的依存を効果的に学習できず、最終的には不自然な動きをもたらす。
これらの制約に対処するため、コンテンツとスタイルの両方から特徴を同時に抽出し、十分な情報交換を容易にする統一動作スタイル拡散(UMSD)フレームワークを提案する。
さらに,動作スタイル変換の分野における最初のアプローチである運動スタイル・マンバ(MSM)デノイザを導入し,マンバの強力なシーケンスモデリング能力を活用する。
時間的関係をよりよく捉えることで、よりコヒーレントなスタイル化された動き列が生成される。
第3に、拡散型コンテンツ一貫性損失とスタイル一貫性損失を設計し、その枠組みを制約し、スタイル動作の特徴を効果的に学習しながら、コンテンツ動作を継承することを保証する。
最後に,本手法は定性的かつ定量的にSOTA法を上回り,より現実的でコヒーレントな動作スタイルの伝達を実現することを実証した。
関連論文リスト
- CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning [47.195002937893115]
CoMoは、多様なインターネットスケールのビデオから、より情報に富んだ連続的な動きの表現を学ぶことを目指している。
動作評価と学習指導のための2つの新しい指標を提案する。
CoMoは強力なゼロショットの一般化を示しており、以前は目に見えないビデオドメインに対して連続的な擬似アクションを生成することができる。
論文 参考訳(メタデータ) (2025-05-22T17:58:27Z) - StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion [14.213279927964903]
StyleMotifはStylized Motion Latent Diffusionモデルである。
複数のモダリティからコンテンツとスタイルの両方に条件付けされた動作を生成する。
論文 参考訳(メタデータ) (2025-03-27T17:59:46Z) - Decoupling Contact for Fine-Grained Motion Style Transfer [21.61658765014968]
モーションスタイルの転送は、その内容を維持しながら動きのスタイルを変え、コンピュータアニメーションやゲームに有用である。
動作スタイルの伝達において、接触を分離して制御し、きめ細かい制御を行う方法は不明である。
本研究では,触覚の自然な動きと時空間変動を両立させながら,接触のきめ細かい制御を行う新しいスタイル伝達法を提案する。
論文 参考訳(メタデータ) (2024-09-09T07:33:14Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Motion Mamba: Efficient and Long Sequence Motion Generation [26.777455596989526]
状態空間モデル(SSM)の最近の進歩は、長いシーケンスモデリングにおいてかなりの可能性を秘めている。
我々は,SSMを用いた先駆的な動き生成モデルを示す,シンプルで効率的な手法であるモーション・マンバを提案する。
提案手法は,HumanML3DおよびKIT-MLデータセットの最大50%のFID改善と最大4倍の高速化を実現する。
論文 参考訳(メタデータ) (2024-03-12T10:25:29Z) - MoST: Motion Style Transformer between Diverse Action Contents [23.62426940733713]
そこで本研究では,コンテンツからスタイルを効果的に切り離し,ソースモーションから転送されたスタイルを持つ可視動作を生成する新しい動き変換器を提案する。
提案手法は既存の手法より優れており,特に異なる内容のモーションペアにおいて,後処理を必要とせず,非常に高品質であることを示す。
論文 参考訳(メタデータ) (2024-03-10T14:11:25Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Fine-Grained Spatiotemporal Motion Alignment for Contrastive Video Representation Learning [16.094271750354835]
モーション情報は、堅牢で一般化されたビデオ表現に不可欠である。
近年の研究では、ビデオコントラスト学習における動き情報の源として、フレーム差が採用されている。
本稿では,適切な動き情報を導入可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-01T07:03:27Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - RSMT: Real-time Stylized Motion Transition for Characters [15.856276818061891]
実時間ストライズされた動き遷移法(RSMT)を提案する。
本手法は, 一般運動多様体モデルとスタイル運動サンプリング器の2つの重要な独立成分から構成される。
提案手法は, 高速, 高品質, 汎用性, 制御可能であることを証明した。
論文 参考訳(メタデータ) (2023-06-21T01:50:04Z) - MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot
Action Recognition [50.345327516891615]
我々は、長短コントラスト目的と動き自動デコーダを含む2つの重要なコンポーネントを含む動き強化長短コントラスト学習法(MoLo)を開発した。
MoLoは、広範囲の時間的コンテキストとモーションキューを同時に学習して、包括的な数ショットマッチングを実現する。
論文 参考訳(メタデータ) (2023-04-03T13:09:39Z) - Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文 参考訳(メタデータ) (2023-02-22T11:42:44Z) - HumanMAC: Masked Motion Completion for Human Motion Prediction [62.279925754717674]
人間の動き予測はコンピュータビジョンとコンピュータグラフィックスの古典的な問題である。
従来の効果はエンコーディング・デコード方式に基づく経験的性能を実現している。
本稿では,新しい視点から新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-02-07T18:34:59Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - Self-supervised Motion Learning from Static Images [36.85209332144106]
Motion from Static Images (MoSI) はモーション情報をエンコードすることを学ぶ。
MoSIは、下流のデータセットを微調整することなく、大きな動きを持つ領域を発見することができる。
下流のデータセットを微調整することなく、MoSIが大きな動きを持つ領域を発見できることを実証します。
論文 参考訳(メタデータ) (2021-04-01T03:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。