論文の概要: GUESS:GradUally Enriching SyntheSis for Text-Driven Human Motion
Generation
- arxiv url: http://arxiv.org/abs/2401.02142v2
- Date: Sat, 6 Jan 2024 03:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 11:27:49.028411
- Title: GUESS:GradUally Enriching SyntheSis for Text-Driven Human Motion
Generation
- Title(参考訳): テキスト駆動型モーション生成のための段階的合成
- Authors: Xuehao Gao, Yang Yang, Zhenyu Xie, Shaoyi Du, Zhongqian Sun, and Yang
Wu
- Abstract要約: そこで本研究では,テキスト駆動型人体動作合成のためのケースケード拡散に基づく新しい生成フレームワークを提案する。
このフレームワークはGradUally Enriching SyntheSis(GUESS)という戦略を略語として利用している。
GUESSは、精度、現実性、多様性において、既存の最先端手法よりも大きなマージンで優れていることを示す。
- 参考スコア(独自算出の注目度): 23.435588151215594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel cascaded diffusion-based generative
framework for text-driven human motion synthesis, which exploits a strategy
named GradUally Enriching SyntheSis (GUESS as its abbreviation). The strategy
sets up generation objectives by grouping body joints of detailed skeletons in
close semantic proximity together and then replacing each of such joint group
with a single body-part node. Such an operation recursively abstracts a human
pose to coarser and coarser skeletons at multiple granularity levels. With
gradually increasing the abstraction level, human motion becomes more and more
concise and stable, significantly benefiting the cross-modal motion synthesis
task. The whole text-driven human motion synthesis problem is then divided into
multiple abstraction levels and solved with a multi-stage generation framework
with a cascaded latent diffusion model: an initial generator first generates
the coarsest human motion guess from a given text description; then, a series
of successive generators gradually enrich the motion details based on the
textual description and the previous synthesized results. Notably, we further
integrate GUESS with the proposed dynamic multi-condition fusion mechanism to
dynamically balance the cooperative effects of the given textual condition and
synthesized coarse motion prompt in different generation stages. Extensive
experiments on large-scale datasets verify that GUESS outperforms existing
state-of-the-art methods by large margins in terms of accuracy, realisticness,
and diversity. Code is available at https://github.com/Xuehao-Gao/GUESS.
- Abstract(参考訳): 本稿では,GradUally Enriching SyntheSis(GUESSを略してGUESS)という戦略を生かした,テキスト駆動型人体動作合成のための新しいケースケード拡散型生成フレームワークを提案する。
この戦略は、詳細な骨格の体節を密接なセマンティックな近接でグループ化し、それらの関節群を1つの体節ノードに置き換えることで生成目標を設定する。
このような操作は、人間のポーズを複数の粒度レベルで粗く粗い骨格に再帰的に抽象化する。
抽象レベルが徐々に向上するにつれて、人間の動きはより簡潔で安定したものとなり、モーダル間の動き合成タスクに大いに恩恵をもたらす。
次に、テキスト駆動ヒトの動作合成問題全体を複数の抽象化レベルに分割し、カスケードされた潜在拡散モデルを用いて多段階生成フレームワークで解決する:初期生成器は、与えられたテキスト記述から最も粗い人間の動作推定を最初に生成し、その後、一連の連続生成器は、テキスト記述と、前回の合成結果に基づいて、動き詳細を徐々に強化する。
特に,提案する動的多条件融合機構と投機を更に統合し,与えられた文様条件の協調効果を動的にバランスさせ,異なる生成段階における粗い動きプロンプトを合成する。
大規模なデータセットに関する大規模な実験は、GUESSが既存の最先端手法よりも精度、現実性、多様性の点で大きなマージンで優れていることを検証している。
コードはhttps://github.com/Xuehao-Gao/GUESSで入手できる。
関連論文リスト
- Multi-Resolution Generative Modeling of Human Motion from Limited Data [3.5229503563299915]
限られたトレーニングシーケンスから人間の動きを合成することを学ぶ生成モデルを提案する。
このモデルは、骨格の畳み込み層とマルチスケールアーキテクチャを統合することで、人間の動きパターンを順応的にキャプチャする。
論文 参考訳(メタデータ) (2024-11-25T15:36:29Z) - KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。
伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。
動作を別個の体節群運動に分解する動き表現を提案する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - AMD:Anatomical Motion Diffusion with Interpretable Motion Decomposition
and Fusion [11.689663297469945]
適応運動拡散モデルを提案する。
入力テキストを簡潔で解釈可能な解剖学的スクリプトのシーケンスにパースするために、LLM(Large Language Model)を利用する。
次に、逆拡散過程における入力テキストと解剖学的スクリプトの影響を均衡させる2分岐融合方式を考案する。
論文 参考訳(メタデータ) (2023-12-20T04:49:45Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Hierarchical Generation of Human-Object Interactions with Diffusion
Probabilistic Models [71.64318025625833]
本稿では,対象物と相互作用する人間の3次元運動を生成するための新しいアプローチを提案する。
私たちのフレームワークはまず一連のマイルストーンを生成し、それに沿って動きを合成します。
NSM, COUCH, SAMPデータセットを用いた実験では, 従来の手法よりも品質と多様性に大きな差があることが示されている。
論文 参考訳(メタデータ) (2023-10-03T17:50:23Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - GANimator: Neural Motion Synthesis from a Single Sequence [38.361579401046875]
本稿では,1つの短い動き列から新しい動きを合成することを学ぶ生成モデルであるGANimatorを提案する。
GANimatorはオリジナルの動きのコア要素に類似した動きを生成し、同時に新規で多様な動きを合成する。
クラウドシミュレーション,キーフレーム編集,スタイル転送,対話型制御など,さまざまな応用例を示し,それぞれが単一の入力シーケンスから学習する。
論文 参考訳(メタデータ) (2022-05-05T13:04:14Z) - Generative Adversarial Graph Convolutional Networks for Human Action
Synthesis [3.0664963196464448]
本研究では,人体の運動学を合成する新しいアーキテクチャであるKineetic-GANを提案する。
提案した敵対的アーキテクチャは、局所的およびグローバルな身体運動に対して最大120の異なる動作を条件付けることができる。
実験は3つのよく知られたデータセットで実施された。
論文 参考訳(メタデータ) (2021-10-21T15:01:32Z) - Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。
提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。
大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文 参考訳(メタデータ) (2020-08-24T02:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。