論文の概要: Priority-Centric Human Motion Generation in Discrete Latent Space
- arxiv url: http://arxiv.org/abs/2308.14480v1
- Date: Mon, 28 Aug 2023 10:40:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 14:20:03.031374
- Title: Priority-Centric Human Motion Generation in Discrete Latent Space
- Title(参考訳): 離散潜在空間における優先中心人間の運動生成
- Authors: Hanyang Kong, Kehong Gong, Dongze Lian, Michael Bi Mi, Xinchao Wang
- Abstract要約: テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 59.401128190423535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-motion generation is a formidable task, aiming to produce human
motions that align with the input text while also adhering to human
capabilities and physical laws. While there have been advancements in diffusion
models, their application in discrete spaces remains underexplored. Current
methods often overlook the varying significance of different motions, treating
them uniformly. It is essential to recognize that not all motions hold the same
relevance to a particular textual description. Some motions, being more salient
and informative, should be given precedence during generation. In response, we
introduce a Priority-Centric Motion Discrete Diffusion Model (M2DM), which
utilizes a Transformer-based VQ-VAE to derive a concise, discrete motion
representation, incorporating a global self-attention mechanism and a
regularization term to counteract code collapse. We also present a motion
discrete diffusion model that employs an innovative noise schedule, determined
by the significance of each motion token within the entire motion sequence.
This approach retains the most salient motions during the reverse diffusion
process, leading to more semantically rich and varied motions. Additionally, we
formulate two strategies to gauge the importance of motion tokens, drawing from
both textual and visual indicators. Comprehensive experiments on the HumanML3D
and KIT-ML datasets confirm that our model surpasses existing techniques in
fidelity and diversity, particularly for intricate textual descriptions.
- Abstract(参考訳): テキスト対モーション生成(text-to-motion generation)は、人間の能力や物理法則に固執しながら、入力テキストに合わせた人間の動きを作り出すことを目的としている。
拡散模型の進歩はあったが、離散空間におけるそれらの応用は未検討のままである。
現在の方法はしばしば異なる動きの様々な重要性を見落とし、それらを一様に扱う。
すべての動きが特定のテキスト記述と同一の関連性を持つとは限らないことを認識することが不可欠である。
より健全で情報的な動きは世代によって優先されるべきである。
そこで我々は,トランスフォーマーをベースとしたVQ-VAEを用いて,簡潔かつ離散的な動作表現を導出し,グローバルな自己認識機構と正規化項を組み込んでコード崩壊に対処する優先性中心運動離散拡散モデル(M2DM)を提案する。
また,全動き列における各動きトークンの重要度によって決定される,革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
このアプローチは逆拡散過程において最も顕著な動きを保ち、より意味的に豊かで多様な動きをもたらす。
さらに,文字と視覚の指標から,モーショントークンの重要性を計測するための2つの戦略を定式化した。
HumanML3DおよびKIT-MLデータセットに関する総合的な実験により、我々のモデルは、特に複雑なテキスト記述のために、忠実さと多様性の既存の技術を超えることが確認された。
関連論文リスト
- MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - Text-driven Human Motion Generation with Motion Masked Diffusion Model [23.637853270123045]
テキスト・ヒューマン・モーション・ジェネレーション(テキスト・ヒューマン・モーション・ジェネレーション)は、自然言語で条件付けられた人間の動作シーケンスを合成するタスクである。
現在の拡散モデルに基づくアプローチは、生成の多様性と多モード性において優れた性能を持つ。
拡散モデルのための新しい動き機構である運動マスク付き拡散モデルbftext(MMDM)を提案する。
論文 参考訳(メタデータ) (2024-09-29T12:26:24Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Seamless Human Motion Composition with Blended Positional Encodings [38.85158088021282]
後処理や冗長な復調ステップを伴わずにシームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるフローMDMを紹介する。
我々はBabelとHumanML3Dデータセットの精度、リアリズム、スムーズさの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-23T18:59:40Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文 参考訳(メタデータ) (2023-02-22T11:42:44Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - Human Motion Diffusion Model [35.05219668478535]
運動拡散モデル(英: Motion Diffusion Model、MDM)は、人間の動作領域に対する変換器に基づく生成モデルである。
我々は,本モデルが軽量な資源で訓練されていることを示すとともに,テキスト・トゥ・モーションとアクション・トゥ・モーションのベンチマークにおいて,最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2022-09-29T16:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。