論文の概要: Human Motion Diffusion as a Generative Prior
- arxiv url: http://arxiv.org/abs/2303.01418v3
- Date: Wed, 30 Aug 2023 04:41:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 17:31:17.795995
- Title: Human Motion Diffusion as a Generative Prior
- Title(参考訳): 生成前駆体としての人間の運動拡散
- Authors: Yonatan Shafir, Guy Tevet, Roy Kapon and Amit H. Bermano
- Abstract要約: 拡散先行に基づく3種類の合成法を提案する。
長いシーケンス生成の課題に取り組みます。
並列合成を用いて、2人の世代に向けた有望なステップを示す。
- 参考スコア(独自算出の注目度): 20.004837564647367
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent work has demonstrated the significant potential of denoising diffusion
models for generating human motion, including text-to-motion capabilities.
However, these methods are restricted by the paucity of annotated motion data,
a focus on single-person motions, and a lack of detailed control. In this
paper, we introduce three forms of composition based on diffusion priors:
sequential, parallel, and model composition. Using sequential composition, we
tackle the challenge of long sequence generation. We introduce DoubleTake, an
inference-time method with which we generate long animations consisting of
sequences of prompted intervals and their transitions, using a prior trained
only for short clips. Using parallel composition, we show promising steps
toward two-person generation. Beginning with two fixed priors as well as a few
two-person training examples, we learn a slim communication block, ComMDM, to
coordinate interaction between the two resulting motions. Lastly, using model
composition, we first train individual priors to complete motions that realize
a prescribed motion for a given joint. We then introduce DiffusionBlending, an
interpolation mechanism to effectively blend several such models to enable
flexible and efficient fine-grained joint and trajectory-level control and
editing. We evaluate the composition methods using an off-the-shelf motion
diffusion model, and further compare the results to dedicated models trained
for these specific tasks.
- Abstract(参考訳): 最近の研究は、テキストから動きへの能力を含む人間の動きを生成するための拡散モデルに有意な可能性を示している。
しかし,これらの手法は,注釈付き動作データのあいまいさ,一人称動作の重視,詳細な制御の欠如などによって制限されている。
本稿では,逐次,並列,モデル構成という,拡散優先に基づく3種類の合成について述べる。
逐次構成を用いることで,長い系列生成の課題に挑戦する。
そこで,提案手法であるdoubletakeでは,短いクリップのみの事前学習を用いて,ストレッチ区間のシーケンスとその遷移からなる長いアニメーションを生成する。
並列合成を用いて,2人生成に向けた有望なステップを示す。
2つの固定前例と2人のトレーニング例から始め、スリムな通信ブロックであるComMDMを学び、2つの動作間の相互作用を調整する。
最後に, モデル構成を用いて, まず, 所定の関節の所定の動きを実現する完全動作を個人に訓練する。
次に,複数のモデルを効率的にブレンドする補間機構である diffusionblending を導入することで,柔軟かつ効率的な細粒度ジョイントと軌道レベルの制御と編集を実現する。
本研究は, 既設の運動拡散モデルを用いて合成手法を評価し, これらのタスクを訓練した専用モデルと比較した。
関連論文リスト
- Generation of Complex 3D Human Motion by Temporal and Spatial Composition of Diffusion Models [9.739611757541535]
私たちのアプローチでは、複雑なアクションをより単純な動き、特にトレーニング中に観察される動作に分解します。
これらの単純な動きは、拡散モデルの性質を用いて単一の現実的なアニメーションに結合される。
本研究では,2つの人間の動作データセットを基本的な動作と複雑な動作に分割して評価し,その性能を最先端の動作と比較する。
論文 参考訳(メタデータ) (2024-09-18T12:32:39Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - Customizing Motion in Text-to-Video Diffusion Models [79.4121510826141]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。
入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文 参考訳(メタデータ) (2023-12-07T18:59:03Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - Motion In-Betweening with Phase Manifolds [29.673541655825332]
本稿では,周期的オートエンコーダによって学習された位相変数を利用して,文字のターゲットポーズに到達するための,新たなデータ駆動型動作制御システムを提案する。
提案手法では,経験的ニューラルネットワークモデルを用いて,空間と時間の両方のクラスタの動きを,異なる専門家の重みで解析する。
論文 参考訳(メタデータ) (2023-08-24T12:56:39Z) - Synthesizing Long-Term Human Motions with Diffusion Models via Coherent
Sampling [74.62570964142063]
テキスト・トゥ・モーション・ジェネレーションは注目されているが、既存の手法のほとんどは短期的な動きに限られている。
本稿では,2つのコヒーレントサンプリング手法を用いた過去の拡散モデルを用いた新しい手法を提案する。
提案手法は,ユーザの指示した長文ストリームによって制御された,構成的かつコヒーレントな3次元人間の動作を生成することができる。
論文 参考訳(メタデータ) (2023-08-03T16:18:32Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - Weakly-supervised Action Transition Learning for Stochastic Human Motion
Prediction [81.94175022575966]
動作駆動型人間の動作予測の課題について紹介する。
一連の動作ラベルと短い動作履歴から、複数の可算な将来の動作を予測することを目的としている。
論文 参考訳(メタデータ) (2022-05-31T08:38:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。