論文の概要: Human Motion Diffusion as a Generative Prior
- arxiv url: http://arxiv.org/abs/2303.01418v1
- Date: Thu, 2 Mar 2023 17:09:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 13:27:27.956666
- Title: Human Motion Diffusion as a Generative Prior
- Title(参考訳): 生成前駆体としての人間の運動拡散
- Authors: Yonatan Shafir, Guy Tevet, Roy Kapon and Amit H. Bermano
- Abstract要約: この分野での主なギャップは、データの可用性の低いままである。
本研究では, 事前学習した拡散モデルを用いて, このギャップを緩和できることを示す。
我々は、前者は微調整、数秒間、さらにはゼロショット方式で効果的であることを示した。
- 参考スコア(独自算出の注目度): 1.8925617030516926
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In recent months, we witness a leap forward as denoising diffusion models
were introduced to Motion Generation. Yet, the main gap in this field remains
the low availability of data. Furthermore, the expensive acquisition process of
motion biases the already modest data towards short single-person sequences.
With such a shortage, more elaborate generative tasks are left behind. In this
paper, we show that this gap can be mitigated using a pre-trained
diffusion-based model as a generative prior. We demonstrate the prior is
effective for fine-tuning, in a few-, and even a zero-shot manner. For the
zero-shot setting, we tackle the challenge of long sequence generation. We
introduce DoubleTake, an inference-time method with which we demonstrate up to
10-minute long animations of prompted intervals and their meaningful and
controlled transition, using the prior that was trained for 10-second
generations. For the few-shot setting, we consider two-person generation. Using
two fixed priors and as few as a dozen training examples, we learn a slim
communication block, ComMDM, to infuse interaction between the two resulting
motions. Finally, using fine-tuning, we train the prior to semantically
complete motions from a single prescribed joint. Then, we use our
DiffusionBlending to blend a few such models into a single one that responds
well to the combination of the individual control signals, enabling
fine-grained joint- and trajectory-level control and editing. Using an
off-the-shelf state-of-the-art (SOTA) motion diffusion model as a prior, we
evaluate our approach for the three mentioned cases and show that we
consistently outperform SOTA models that were designed and trained for those
tasks.
- Abstract(参考訳): 近年,モーションジェネレーションに拡散モデルが導入されたことで,新たな進歩が見られた。
しかし、この分野の主なギャップは、データの可用性の低いままである。
さらに、高価な動きの獲得プロセスは、既に控えめなデータを短い1人のシーケンスに偏らせる。
このような不足により、より精巧な生成作業が残されている。
本稿では,このギャップを生成前として事前学習した拡散ベースモデルを用いて緩和できることを示す。
我々は、前者は微調整、数秒間、さらにはゼロショット方式で効果的であることを示した。
ゼロショット設定では、長いシーケンス生成の課題に取り組む。
提案手法は,10秒世代に訓練された先行手法を用いて,最大10分間のインパルス・インターバルのアニメーションと,その有意義かつ制御されたトランジションを再現する推論時間法である。
少数の設定では、2人の世代を考える。
2つの固定された先行と1ダース程度の訓練例を用いて、スリムな通信ブロックであるComMDMを学習し、2つの動作間の相互作用を注入する。
最後に、微調整を用いて、単一の所定の関節から意味的に完全な動作を事前に訓練する。
次に, 拡散ブレイディングを用いて, 個々の制御信号の組み合わせによく対応し, 細粒度, 軌道レベルの制御および編集を可能にする1つのモデルに, そのモデルをいくつかブレンドする。
既往の動作拡散モデル(SOTA)を先行として, 上記の3事例に対するアプローチを評価し, それらの課題のために設計, 訓練されたSOTAモデルより一貫して優れていることを示す。
関連論文リスト
- Generation of Complex 3D Human Motion by Temporal and Spatial Composition of Diffusion Models [9.739611757541535]
私たちのアプローチでは、複雑なアクションをより単純な動き、特にトレーニング中に観察される動作に分解します。
これらの単純な動きは、拡散モデルの性質を用いて単一の現実的なアニメーションに結合される。
本研究では,2つの人間の動作データセットを基本的な動作と複雑な動作に分割して評価し,その性能を最先端の動作と比較する。
論文 参考訳(メタデータ) (2024-09-18T12:32:39Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - Customizing Motion in Text-to-Video Diffusion Models [79.4121510826141]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。
入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文 参考訳(メタデータ) (2023-12-07T18:59:03Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - Motion In-Betweening with Phase Manifolds [29.673541655825332]
本稿では,周期的オートエンコーダによって学習された位相変数を利用して,文字のターゲットポーズに到達するための,新たなデータ駆動型動作制御システムを提案する。
提案手法では,経験的ニューラルネットワークモデルを用いて,空間と時間の両方のクラスタの動きを,異なる専門家の重みで解析する。
論文 参考訳(メタデータ) (2023-08-24T12:56:39Z) - Synthesizing Long-Term Human Motions with Diffusion Models via Coherent
Sampling [74.62570964142063]
テキスト・トゥ・モーション・ジェネレーションは注目されているが、既存の手法のほとんどは短期的な動きに限られている。
本稿では,2つのコヒーレントサンプリング手法を用いた過去の拡散モデルを用いた新しい手法を提案する。
提案手法は,ユーザの指示した長文ストリームによって制御された,構成的かつコヒーレントな3次元人間の動作を生成することができる。
論文 参考訳(メタデータ) (2023-08-03T16:18:32Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - Weakly-supervised Action Transition Learning for Stochastic Human Motion
Prediction [81.94175022575966]
動作駆動型人間の動作予測の課題について紹介する。
一連の動作ラベルと短い動作履歴から、複数の可算な将来の動作を予測することを目的としている。
論文 参考訳(メタデータ) (2022-05-31T08:38:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。