論文の概要: DiffusionPhase: Motion Diffusion in Frequency Domain
- arxiv url: http://arxiv.org/abs/2312.04036v1
- Date: Thu, 7 Dec 2023 04:39:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 16:20:16.527836
- Title: DiffusionPhase: Motion Diffusion in Frequency Domain
- Title(参考訳): 拡散相:周波数領域における運動拡散
- Authors: Weilin Wan, Yiming Huang, Shutong Wu, Taku Komura, Wenping Wang,
Dinesh Jayaraman, Lingjie Liu
- Abstract要約: そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
- 参考スコア(独自算出の注目度): 69.811762407278
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this study, we introduce a learning-based method for generating
high-quality human motion sequences from text descriptions (e.g., ``A person
walks forward"). Existing techniques struggle with motion diversity and smooth
transitions in generating arbitrary-length motion sequences, due to limited
text-to-motion datasets and the pose representations used that often lack
expressiveness or compactness. To address these issues, we propose the first
method for text-conditioned human motion generation in the frequency domain of
motions. We develop a network encoder that converts the motion space into a
compact yet expressive parameterized phase space with high-frequency details
encoded, capturing the local periodicity of motions in time and space with high
accuracy. We also introduce a conditional diffusion model for predicting
periodic motion parameters based on text descriptions and a start pose,
efficiently achieving smooth transitions between motion sequences associated
with different text descriptions. Experiments demonstrate that our approach
outperforms current methods in generating a broader variety of high-quality
motions, and synthesizing long sequences with natural transitions.
- Abstract(参考訳): 本研究では,テキスト記述から高品質な人間の動き列を生成する学習ベース手法(例えば,「前進する人」)を提案する。
既存のテクニックでは、テキストからモーションへの制限されたデータセットと、しばしば表現力やコンパクト性に欠けるポーズ表現によって、任意の長さのモーションシーケンスを生成する際に、動きの多様性や滑らかな遷移に苦しむ。
そこで本研究では,動きの周波数領域におけるテキスト条件付きヒューマンモーション生成の最初の手法を提案する。
本研究では,動き空間を高頻度の詳細を符号化したコンパクトなパラメータ化位相空間に変換するネットワークエンコーダを開発し,時間と空間の局所周期性を高精度に取得する。
また,テキスト記述と開始ポーズに基づいて周期的な動きパラメータを予測する条件拡散モデルを導入し,異なるテキスト記述に関連付けられた動き列間のスムーズな遷移を効率的に達成する。
実験により,我々のアプローチは,より多様な高品質な動きを生成し,自然遷移で長い列を合成する現在の手法よりも優れていることが証明された。
関連論文リスト
- FTMoMamba: Motion Generation with Frequency and Text State Space Models [53.60865359814126]
本稿では,周波数状態空間モデルとテキスト状態空間モデルを備えた新しい拡散型FTMoMambaフレームワークを提案する。
微細な表現を学ぶために、FreqSSMは配列を低周波成分と高周波成分に分解する。
テキストと動作の一貫性を確保するために、TextSSMはテキスト機能を文レベルでエンコードする。
論文 参考訳(メタデータ) (2024-11-26T15:48:12Z) - DART: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control [12.465927271402442]
テキスト条件付きヒューマンモーション生成は、自然言語によるユーザインタラクションを可能にする。
DARTは、リアルタイムテキスト駆動モーション制御のための拡散型自動回帰モーションプリミティブモデルである。
動作合成タスクにおいて,モデルの汎用性と優れた性能を実証し,両手法に有効なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-07T17:58:22Z) - Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。
我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。
テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-07-11T12:33:56Z) - Seamless Human Motion Composition with Blended Positional Encodings [38.85158088021282]
後処理や冗長な復調ステップを伴わずにシームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるフローMDMを紹介する。
我々はBabelとHumanML3Dデータセットの精度、リアリズム、スムーズさの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-23T18:59:40Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Synthesizing Long-Term Human Motions with Diffusion Models via Coherent
Sampling [74.62570964142063]
テキスト・トゥ・モーション・ジェネレーションは注目されているが、既存の手法のほとんどは短期的な動きに限られている。
本稿では,2つのコヒーレントサンプリング手法を用いた過去の拡散モデルを用いた新しい手法を提案する。
提案手法は,ユーザの指示した長文ストリームによって制御された,構成的かつコヒーレントな3次元人間の動作を生成することができる。
論文 参考訳(メタデータ) (2023-08-03T16:18:32Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。