論文の概要: Diffusion Motion: Generate Text-Guided 3D Human Motion by Diffusion
Model
- arxiv url: http://arxiv.org/abs/2210.12315v1
- Date: Sat, 22 Oct 2022 00:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:10:23.493692
- Title: Diffusion Motion: Generate Text-Guided 3D Human Motion by Diffusion
Model
- Title(参考訳): 拡散運動:拡散モデルによるテキスト誘導3次元運動の生成
- Authors: Zhiyuan Ren, Zhihong Pan, Xin Zhou and Le Kang
- Abstract要約: 本稿では,複雑な自然言語文から3次元人物の動きを生成するための,シンプルで斬新な手法を提案する。
テキストの指導の下で様々な動作結果を生成するために,Denoising Diffusion Probabilistic Model を用いる。
我々の実験は,HumanML3Dテストセットにおけるモデル競合の結果を定量的に検証し,より視覚的に自然で多様な例を生成できることを実証した。
- 参考スコア(独自算出の注目度): 7.381316531478522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a simple and novel method for generating 3D human motion from
complex natural language sentences, which describe different velocity,
direction and composition of all kinds of actions. Different from existing
methods that use classical generative architecture, we apply the Denoising
Diffusion Probabilistic Model to this task, synthesizing diverse motion results
under the guidance of texts. The diffusion model converts white noise into
structured 3D motion by a Markov process with a series of denoising steps and
is efficiently trained by optimizing a variational lower bound. To achieve the
goal of text-conditioned image synthesis, we use the classifier-free guidance
strategy to fuse text embedding into the model during training. Our experiments
demonstrate that our model achieves competitive results on HumanML3D test set
quantitatively and can generate more visually natural and diverse examples. We
also show with experiments that our model is capable of zero-shot generation of
motions for unseen text guidance.
- Abstract(参考訳): 本稿では,様々な動作の速度,方向,構成の異なる複雑な自然言語文から,簡易かつ新しい3次元動作を生成する手法を提案する。
古典的生成的アーキテクチャを用いる既存の手法と異なり、本課題にDenoising Diffusion Probabilistic Modelを適用し、テキストの指導の下で様々な動作結果を合成する。
拡散モデルでは、ホワイトノイズをマルコフ過程によって構造化された3次元運動に変換し、変分下界を最適化して効率よく訓練する。
テキストコンディショニング画像合成の目的を達成するために,学習中にテキスト埋め込みをモデルに融合させるために,分類器フリーの指導戦略を用いる。
我々の実験は,HumanML3Dテストセットの競争結果が定量的に得られ,より視覚的に自然で多様な例を生成できることを示した。
また,本モデルでは未認識テキスト誘導のためのゼロショットモーション生成が可能であることを示す実験を行った。
関連論文リスト
- Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - Hierarchical Generation of Human-Object Interactions with Diffusion
Probabilistic Models [71.64318025625833]
本稿では,対象物と相互作用する人間の3次元運動を生成するための新しいアプローチを提案する。
私たちのフレームワークはまず一連のマイルストーンを生成し、それに沿って動きを合成します。
NSM, COUCH, SAMPデータセットを用いた実験では, 従来の手法よりも品質と多様性に大きな差があることが示されている。
論文 参考訳(メタデータ) (2023-10-03T17:50:23Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion
Probabilistic Models [58.357180353368896]
本稿では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,拡散確率モデル(DDPM)の利点を生かした条件付きパラダイムを提案する。
我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。
論文 参考訳(メタデータ) (2023-01-10T13:15:42Z) - 3d human motion generation from the text via gesture action
classification and the autoregressive model [28.76063248241159]
このモデルは、手を振ってうなずくといった人間の思考を表現する特別なジェスチャーを生成することに焦点を当てている。
いくつかの実験により,本手法はテキストから知覚的に自然でリアルな3次元動作を生成することに成功した。
論文 参考訳(メタデータ) (2022-11-18T03:05:49Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - Synthesis of Compositional Animations from Textual Descriptions [54.85920052559239]
「どんなに非構造的で複雑で、文を作りながら、それからもっともらしい動きを生成できるのか。」
「映画の脚本から3Dキャラクタをアニメーションしたり、ロボットに何をしたいのかを伝えるだけで動かせるのか?」
論文 参考訳(メタデータ) (2021-03-26T18:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。