論文の概要: Act As You Wish: Fine-Grained Control of Motion Diffusion Model with
Hierarchical Semantic Graphs
- arxiv url: http://arxiv.org/abs/2311.01015v1
- Date: Thu, 2 Nov 2023 06:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 14:41:00.408688
- Title: Act As You Wish: Fine-Grained Control of Motion Diffusion Model with
Hierarchical Semantic Graphs
- Title(参考訳): アクト・アズ・ア・ウィッシュ:階層的意味グラフを用いた運動拡散モデルの微粒化制御
- Authors: Peng Jin, Yang Wu, Yanbo Fan, Zhongqian Sun, Yang Wei, Li Yuan
- Abstract要約: 動き生成のきめ細かい制御のための階層的意味グラフを提案する。
動作記述を階層的なセマンティックグラフに分解し,3段階の動作,行動,具体性を含む。
提案手法は, コミュニティに多大な影響を及ぼす可能性のある, 生成した動きを連続的に改善することができる。
- 参考スコア(独自算出の注目度): 31.244039305932287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most text-driven human motion generation methods employ sequential modeling
approaches, e.g., transformer, to extract sentence-level text representations
automatically and implicitly for human motion synthesis. However, these compact
text representations may overemphasize the action names at the expense of other
important properties and lack fine-grained details to guide the synthesis of
subtly distinct motion. In this paper, we propose hierarchical semantic graphs
for fine-grained control over motion generation. Specifically, we disentangle
motion descriptions into hierarchical semantic graphs including three levels of
motions, actions, and specifics. Such global-to-local structures facilitate a
comprehensive understanding of motion description and fine-grained control of
motion generation. Correspondingly, to leverage the coarse-to-fine topology of
hierarchical semantic graphs, we decompose the text-to-motion diffusion process
into three semantic levels, which correspond to capturing the overall motion,
local actions, and action specifics. Extensive experiments on two benchmark
human motion datasets, including HumanML3D and KIT, with superior performances,
justify the efficacy of our method. More encouragingly, by modifying the edge
weights of hierarchical semantic graphs, our method can continuously refine the
generated motion, which may have a far-reaching impact on the community. Code
and pre-training weights are available at
https://github.com/jpthu17/GraphMotion.
- Abstract(参考訳): ほとんどのテキスト駆動型ヒューマンモーション生成法は、例えばトランスフォーマーのようなシーケンシャルなモデリング手法を用いて、人間のモーション合成のために自動的に暗黙的に文レベルのテキスト表現を抽出する。
しかし、これらのコンパクトテキスト表現は、他の重要なプロパティを犠牲にしてアクション名を過大に強調し、微妙な詳細を欠いて、微妙に異なる動きの合成を導くことができる。
本稿では,動き生成のきめ細かい制御のための階層的意味グラフを提案する。
具体的には,動作記述を3段階の動作,動作,仕様を含む階層的意味グラフに分解する。
このようなグローバルな局所構造は、運動記述の包括的理解と運動生成のきめ細かい制御を促進する。
それに応じて,階層的意味グラフの粗さから細かなトポロジーを活用すべく,テキスト間拡散過程を3つの意味レベルに分解し,全体的な動作,局所的動作,行動特化に対応する。
また,HumanML3DとKITを含む2つのヒト動作データセットの総合的な実験により,本手法の有効性を正当化した。
さらに,階層型セマンティックグラフのエッジ重みを改良することにより,コミュニティに大きな影響を与える可能性のある生成動作を継続的に改善することができる。
コードと事前トレーニングのウェイトはhttps://github.com/jpthu17/GraphMotion.orgで公開されている。
関連論文リスト
- Semantics-aware Motion Retargeting with Vision-Language Models [20.271666786433748]
本稿では,意味ある動作意味論を抽出し,維持するために,視覚言語モデルを利用したセマンティックス・アウェア・モーション・リターゲティング(SMT)手法を提案する。
高レベルな動作セマンティクスは、視覚言語モデルに描画された画像を与え、抽出したセマンティクスの埋め込みを調整することで、動作プロセスに組み込む。
実験結果から,提案手法が高精度な動作セマンティクスを維持しつつ,高品質な動作結果の生成に有効であることが示された。
論文 参考訳(メタデータ) (2023-12-04T15:23:49Z) - Story-to-Motion: Synthesizing Infinite and Controllable Character
Animation from Long Text [14.473103773197838]
ストーリー・トゥ・モーション(Story-to-Motion)と呼ばれる新しいタスクは、文字が長いテキスト記述に基づいて特定の動作を行う必要があるときに発生する。
文字制御とテキスト・トゥ・モーションのこれまでの研究は、関連する側面に対処してきたが、包括的解決はいまだ解明されていない。
本稿では,制御可能で無限に長い動きと,入力テキストに整合した軌跡を生成する新しいシステムを提案する。
論文 参考訳(メタデータ) (2023-11-13T16:22:38Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - TEACH: Temporal Action Composition for 3D Humans [50.97135662063117]
自然言語の一連の記述を前提として,テキストに意味的に対応する3次元の人間の動作を生成する。
特に、我々のゴールは一連のアクションの合成を可能にすることであり、これは時間的アクション合成と呼ばれる。
論文 参考訳(メタデータ) (2022-09-09T00:33:40Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of
3D Human Motions and Texts [20.336481832461168]
視覚と言語との強い結びつきから着想を得た本論文は,テキストから3次元人間のフルボディ運動の生成を探求することを目的とする。
本稿では,離散的かつコンパクトな動き表現である動きトークンを提案する。
私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。
論文 参考訳(メタデータ) (2022-07-04T19:52:18Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - Synthesis of Compositional Animations from Textual Descriptions [54.85920052559239]
「どんなに非構造的で複雑で、文を作りながら、それからもっともらしい動きを生成できるのか。」
「映画の脚本から3Dキャラクタをアニメーションしたり、ロボットに何をしたいのかを伝えるだけで動かせるのか?」
論文 参考訳(メタデータ) (2021-03-26T18:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。