論文の概要: Synthesizing Long-Term Human Motions with Diffusion Models via Coherent
Sampling
- arxiv url: http://arxiv.org/abs/2308.01850v1
- Date: Thu, 3 Aug 2023 16:18:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 13:29:21.090525
- Title: Synthesizing Long-Term Human Motions with Diffusion Models via Coherent
Sampling
- Title(参考訳): コヒーレントサンプリングによる拡散モデルによる長期人間の動作の合成
- Authors: Zhao Yang, Bing Su and Ji-Rong Wen
- Abstract要約: テキスト・トゥ・モーション・ジェネレーションは注目されているが、既存の手法のほとんどは短期的な動きに限られている。
本稿では,2つのコヒーレントサンプリング手法を用いた過去の拡散モデルを用いた新しい手法を提案する。
提案手法は,ユーザの指示した長文ストリームによって制御された,構成的かつコヒーレントな3次元人間の動作を生成することができる。
- 参考スコア(独自算出の注目度): 74.62570964142063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-motion generation has gained increasing attention, but most existing
methods are limited to generating short-term motions that correspond to a
single sentence describing a single action. However, when a text stream
describes a sequence of continuous motions, the generated motions corresponding
to each sentence may not be coherently linked. Existing long-term motion
generation methods face two main issues. Firstly, they cannot directly generate
coherent motions and require additional operations such as interpolation to
process the generated actions. Secondly, they generate subsequent actions in an
autoregressive manner without considering the influence of future actions on
previous ones. To address these issues, we propose a novel approach that
utilizes a past-conditioned diffusion model with two optional coherent sampling
methods: Past Inpainting Sampling and Compositional Transition Sampling. Past
Inpainting Sampling completes subsequent motions by treating previous motions
as conditions, while Compositional Transition Sampling models the distribution
of the transition as the composition of two adjacent motions guided by
different text prompts. Our experimental results demonstrate that our proposed
method is capable of generating compositional and coherent long-term 3D human
motions controlled by a user-instructed long text stream. The code is available
at
\href{https://github.com/yangzhao1230/PCMDM}{https://github.com/yangzhao1230/PCMDM}.
- Abstract(参考訳): テキストから動きへの生成は注目が集まっているが、既存の手法のほとんどは、1つのアクションを記述する1つの文に対応する短期的な動きを生成することに限定されている。
しかし、テキストストリームが連続した動きのシーケンスを記述する場合、各文に対応する生成された動きはコヒーレントにリンクされない。
既存の長期動作生成手法は2つの問題に直面している。
まず、コヒーレントな動作を直接生成することができず、生成されたアクションを処理するために補間のような追加の操作を必要とする。
第二に、将来の行動が過去の行動に与える影響を考慮せずに、後続の行動を自己回帰的に生成する。
そこで本研究では,過去条件の拡散モデルを用いて,任意の2つのコヒーレントサンプリング法,すなわち過去インパイントサンプリングと組成遷移サンプリングを用いた新しい手法を提案する。
過去の塗装サンプリングは、前の動きを条件として扱うことでその後の動きを完了し、構成遷移サンプリングは、遷移の分布を異なるテキストプロンプトで導かれる2つの隣接する動きの合成としてモデル化する。
提案手法は,ユーザが指示する長文ストリームによって制御される,合成的かつコヒーレントな3次元人間の動作を生成できることを示す。
コードは \href{https://github.com/yangzhao1230/pcmdm}{https://github.com/yangzhao1230/pcmdm} で入手できる。
関連論文リスト
- M2D2M: Multi-Motion Generation from Text with Discrete Diffusion Models [18.125860678409804]
テキスト記述から人間の動きを生成するための新しいアプローチであるM2D2M(Multi-Motion Discrete Diffusion Models)を紹介する。
M2D2Mは、マルチモーションシーケンスを生成するという課題に順応的に対処し、一連のアクション間の動きとコヒーレンスをシームレスに遷移させる。
論文 参考訳(メタデータ) (2024-07-19T17:57:33Z) - Multi-Track Timeline Control for Text-Driven 3D Human Motion Generation [71.08922726494842]
テキスト駆動動作合成におけるタイムライン制御の問題を紹介する。
ユーザーは単一のプロンプトの代わりに、重複する可能性のある時間間隔に整理された複数のプロンプトのマルチトラックタイムラインを指定することができる。
マルチトラックタイムラインから合成アニメーションを生成するための新しいテスト時間復調手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T18:39:15Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - Human Motion Diffusion as a Generative Prior [20.004837564647367]
拡散先行に基づく3種類の合成法を提案する。
長いシーケンス生成の課題に取り組みます。
並列合成を用いて、2人の世代に向けた有望なステップを示す。
論文 参考訳(メタデータ) (2023-03-02T17:09:27Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - Weakly-supervised Action Transition Learning for Stochastic Human Motion
Prediction [81.94175022575966]
動作駆動型人間の動作予測の課題について紹介する。
一連の動作ラベルと短い動作履歴から、複数の可算な将来の動作を予測することを目的としている。
論文 参考訳(メタデータ) (2022-05-31T08:38:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。