論文の概要: MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation
- arxiv url: http://arxiv.org/abs/2401.11115v2
- Date: Tue, 23 Jan 2024 04:41:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 12:57:09.928312
- Title: MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation
- Title(参考訳): MotionMix:制御可能なモーション生成のための弱スーパービジョン拡散
- Authors: Nhat M. Hoang, Kehong Gong, Chuan Guo, Michael Bi Mi
- Abstract要約: MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
- 参考スコア(独自算出の注目度): 19.999239668765885
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Controllable generation of 3D human motions becomes an important topic as the
world embraces digital transformation. Existing works, though making promising
progress with the advent of diffusion models, heavily rely on meticulously
captured and annotated (e.g., text) high-quality motion corpus, a
resource-intensive endeavor in the real world. This motivates our proposed
MotionMix, a simple yet effective weakly-supervised diffusion model that
leverages both noisy and unannotated motion sequences. Specifically, we
separate the denoising objectives of a diffusion model into two stages:
obtaining conditional rough motion approximations in the initial $T-T^*$ steps
by learning the noisy annotated motions, followed by the unconditional
refinement of these preliminary motions during the last $T^*$ steps using
unannotated motions. Notably, though learning from two sources of imperfect
data, our model does not compromise motion generation quality compared to fully
supervised approaches that access gold data. Extensive experiments on several
benchmarks demonstrate that our MotionMix, as a versatile framework,
consistently achieves state-of-the-art performances on text-to-motion,
action-to-motion, and music-to-dance tasks.
- Abstract(参考訳): 世界がデジタルトランスフォーメーションを受け入れるにつれ、制御可能な3次元人間の動きの生成は重要なトピックとなる。
拡散モデルの登場で有望な進展を遂げた既存の作品は、実世界のリソース集約的な取り組みである、細心の注意深いキャプチャーと注釈付き(テキストなど)の高品質モーションコーパスに大きく依存している。
提案するモーションミックスは,ノイズと無意味な動き列を併用した,単純かつ効果的な弱教師付き拡散モデルである。
具体的には, 初期$t-t^*$ ステップにおける条件付き粗動近似を得るには, 雑音アノテートされた動きを学習し, 最終$t^*$ ステップの条件付き粗動近似を得る。
特に、2つの不完全なデータソースから学習するが、我々のモデルは、ゴールドデータにアクセスする完全に教師されたアプローチに比べて、動きの生成品質を損なうことはない。
いくつかのベンチマークにおいて、MotionMixは多機能なフレームワークであり、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成している。
関連論文リスト
- Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer [55.109778609058154]
既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。
動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。
我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
論文 参考訳(メタデータ) (2024-06-10T17:47:14Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - BoDiffusion: Diffusing Sparse Observations for Full-Body Human Motion
Synthesis [14.331548412833513]
複合現実感アプリケーションは、没入感のある体験を可能にするために、ユーザのフルボディの動きを追跡する必要がある。
本稿では,この非拘束的再構成問題に対処するために,運動合成のための生成拡散モデルであるBoDiffusionを提案する。
本稿では,スムーズで現実的なフルボディモーションシーケンスを生成しつつ,スパーストラッキング入力をBoDiffusionが活用できる時間空間調和方式を提案する。
論文 参考訳(メタデータ) (2023-04-21T16:39:05Z) - Human Motion Diffusion as a Generative Prior [20.004837564647367]
拡散先行に基づく3種類の合成法を提案する。
長いシーケンス生成の課題に取り組みます。
並列合成を用いて、2人の世代に向けた有望なステップを示す。
論文 参考訳(メタデータ) (2023-03-02T17:09:27Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。