論文の概要: MotionDreamer: One-to-Many Motion Synthesis with Localized Generative Masked Transformer
- arxiv url: http://arxiv.org/abs/2504.08959v1
- Date: Fri, 11 Apr 2025 20:27:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:53:48.822225
- Title: MotionDreamer: One-to-Many Motion Synthesis with Localized Generative Masked Transformer
- Title(参考訳): MotionDreamer: 局所生成型マスク変圧器を用いた一対多動作合成
- Authors: Yilin Wang, Chuan Guo, Yuxuan Mu, Muhammad Gohar Javed, Xinxin Zuo, Juwei Lu, Hai Jiang, Li Cheng,
- Abstract要約: 本研究では,ある動きから内部動作パターンを学習するための局所化マスクモデルであるMotionDreamerを提案する。
MotionDreamerは、新しい分布正規化法を用いて、局所的な動きパターンのための堅牢で情報的なコードブックを構築する。
総合的な実験で実証されたように、MotionDreamerは、GANや拡散に基づく最先端の手法を、忠実さと多様性の両方で上回っている。
- 参考スコア(独自算出の注目度): 36.43680216948212
- License:
- Abstract: Generative masked transformers have demonstrated remarkable success across various content generation tasks, primarily due to their ability to effectively model large-scale dataset distributions with high consistency. However, in the animation domain, large datasets are not always available. Applying generative masked modeling to generate diverse instances from a single MoCap reference may lead to overfitting, a challenge that remains unexplored. In this work, we present MotionDreamer, a localized masked modeling paradigm designed to learn internal motion patterns from a given motion with arbitrary topology and duration. By embedding the given motion into quantized tokens with a novel distribution regularization method, MotionDreamer constructs a robust and informative codebook for local motion patterns. Moreover, a sliding window local attention is introduced in our masked transformer, enabling the generation of natural yet diverse animations that closely resemble the reference motion patterns. As demonstrated through comprehensive experiments, MotionDreamer outperforms the state-of-the-art methods that are typically GAN or Diffusion-based in both faithfulness and diversity. Thanks to the consistency and robustness of the quantization-based approach, MotionDreamer can also effectively perform downstream tasks such as temporal motion editing, \textcolor{update}{crowd animation}, and beat-aligned dance generation, all using a single reference motion. Visit our project page: https://motiondreamer.github.io/
- Abstract(参考訳): 生成マスク型トランスフォーマーは、様々なコンテンツ生成タスクにおいて顕著な成功を収めている。
しかし、アニメーション領域では、大きなデータセットが常に利用できるとは限らない。
生成マスクモデリングを適用して、単一のMoCap参照から多様なインスタンスを生成することで、オーバーフィットにつながる可能性がある。
本研究では,任意のトポロジと持続時間を持つ動きから内部運動パターンを学習するための局所化マスクモデルであるMotionDreamerを提案する。
与えられた動きを新しい分布正規化法で量子化トークンに埋め込むことで、ローカルな動きパターンのための堅牢で情報的なコードブックを構築する。
さらに,我々のマスク型変圧器にスライディングウインドウの局所的注意を取り入れることで,参照動作パターンによく似た自然だが多様なアニメーションを生成することができる。
総合的な実験で実証されたように、MotionDreamerは、GANや拡散に基づく最先端の手法を、忠実さと多様性の両方で上回っている。
量子化ベースのアプローチの一貫性と堅牢性により、MotionDreamerは、時間的モーション編集、 \textcolor{update}{crowd animation}、ビート整列ダンス生成などの下流タスクを、すべて単一の参照モーションを使用して効果的に実行することができる。
プロジェクトページをご覧ください。
関連論文リスト
- MotionFlow: Attention-Driven Motion Transfer in Video Diffusion Models [3.2311303453753033]
動画拡散モデルにおける動き伝達のための新しいフレームワークであるMotionFlowを紹介する。
本手法は,空間的・時間的ダイナミクスを正確に把握し,操作するために,クロスアテンションマップを利用する。
実験の結果,MotionFlowは劇的なシーン変化であっても,忠実度と汎用性の両方で既存モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-12-06T18:59:12Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Motion In-Betweening with Phase Manifolds [29.673541655825332]
本稿では,周期的オートエンコーダによって学習された位相変数を利用して,文字のターゲットポーズに到達するための,新たなデータ駆動型動作制御システムを提案する。
提案手法では,経験的ニューラルネットワークモデルを用いて,空間と時間の両方のクラスタの動きを,異なる専門家の重みで解析する。
論文 参考訳(メタデータ) (2023-08-24T12:56:39Z) - Single Motion Diffusion [33.81898532874481]
SinMDMは、任意の位相を持つ単一運動列の内部モチーフを学習し、それらに忠実な任意の長さの運動を合成するモデルである。
SinMDMは、空間的および時間的相互関係、モーション展開、スタイル転送、群衆アニメーションなど、さまざまな状況に適用することができる。
以上の結果から,SinMDMは品質と時間空間効率の両方で既存手法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-12T13:02:19Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。