論文の概要: Act As You Wish: Fine-Grained Control of Motion Diffusion Model with
Hierarchical Semantic Graphs
- arxiv url: http://arxiv.org/abs/2311.01015v1
- Date: Thu, 2 Nov 2023 06:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 14:41:00.408688
- Title: Act As You Wish: Fine-Grained Control of Motion Diffusion Model with
Hierarchical Semantic Graphs
- Title(参考訳): アクト・アズ・ア・ウィッシュ:階層的意味グラフを用いた運動拡散モデルの微粒化制御
- Authors: Peng Jin, Yang Wu, Yanbo Fan, Zhongqian Sun, Yang Wei, Li Yuan
- Abstract要約: 動き生成のきめ細かい制御のための階層的意味グラフを提案する。
動作記述を階層的なセマンティックグラフに分解し,3段階の動作,行動,具体性を含む。
提案手法は, コミュニティに多大な影響を及ぼす可能性のある, 生成した動きを連続的に改善することができる。
- 参考スコア(独自算出の注目度): 31.244039305932287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most text-driven human motion generation methods employ sequential modeling
approaches, e.g., transformer, to extract sentence-level text representations
automatically and implicitly for human motion synthesis. However, these compact
text representations may overemphasize the action names at the expense of other
important properties and lack fine-grained details to guide the synthesis of
subtly distinct motion. In this paper, we propose hierarchical semantic graphs
for fine-grained control over motion generation. Specifically, we disentangle
motion descriptions into hierarchical semantic graphs including three levels of
motions, actions, and specifics. Such global-to-local structures facilitate a
comprehensive understanding of motion description and fine-grained control of
motion generation. Correspondingly, to leverage the coarse-to-fine topology of
hierarchical semantic graphs, we decompose the text-to-motion diffusion process
into three semantic levels, which correspond to capturing the overall motion,
local actions, and action specifics. Extensive experiments on two benchmark
human motion datasets, including HumanML3D and KIT, with superior performances,
justify the efficacy of our method. More encouragingly, by modifying the edge
weights of hierarchical semantic graphs, our method can continuously refine the
generated motion, which may have a far-reaching impact on the community. Code
and pre-training weights are available at
https://github.com/jpthu17/GraphMotion.
- Abstract(参考訳): ほとんどのテキスト駆動型ヒューマンモーション生成法は、例えばトランスフォーマーのようなシーケンシャルなモデリング手法を用いて、人間のモーション合成のために自動的に暗黙的に文レベルのテキスト表現を抽出する。
しかし、これらのコンパクトテキスト表現は、他の重要なプロパティを犠牲にしてアクション名を過大に強調し、微妙な詳細を欠いて、微妙に異なる動きの合成を導くことができる。
本稿では,動き生成のきめ細かい制御のための階層的意味グラフを提案する。
具体的には,動作記述を3段階の動作,動作,仕様を含む階層的意味グラフに分解する。
このようなグローバルな局所構造は、運動記述の包括的理解と運動生成のきめ細かい制御を促進する。
それに応じて,階層的意味グラフの粗さから細かなトポロジーを活用すべく,テキスト間拡散過程を3つの意味レベルに分解し,全体的な動作,局所的動作,行動特化に対応する。
また,HumanML3DとKITを含む2つのヒト動作データセットの総合的な実験により,本手法の有効性を正当化した。
さらに,階層型セマンティックグラフのエッジ重みを改良することにより,コミュニティに大きな影響を与える可能性のある生成動作を継続的に改善することができる。
コードと事前トレーニングのウェイトはhttps://github.com/jpthu17/GraphMotion.orgで公開されている。
関連論文リスト
- KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。
伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。
動作を別個の体節群運動に分解する動き表現を提案する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。
新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。
FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文 参考訳(メタデータ) (2024-03-20T11:38:30Z) - Semantics-aware Motion Retargeting with Vision-Language Models [19.53696208117539]
本稿では,意味ある動作意味論を抽出し,維持するために,視覚言語モデルを利用したセマンティックス・アウェア・モーション・リターゲティング(SMT)手法を提案する。
我々は3次元動作のレンダリングに微分可能モジュールを使用し、視覚言語モデルに入力し、抽出したセマンティック埋め込みを整合させることにより、高レベルなモーションセマンティクスを動作プロセスに組み込む。
微粒な動きの詳細と高レベルのセマンティクスの保存を確保するため、スケルトンを意識した事前学習とセマンティクスと幾何制約による微調整からなる2段階パイプラインを採用する。
論文 参考訳(メタデータ) (2023-12-04T15:23:49Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - TEACH: Temporal Action Composition for 3D Humans [50.97135662063117]
自然言語の一連の記述を前提として,テキストに意味的に対応する3次元の人間の動作を生成する。
特に、我々のゴールは一連のアクションの合成を可能にすることであり、これは時間的アクション合成と呼ばれる。
論文 参考訳(メタデータ) (2022-09-09T00:33:40Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - Synthesis of Compositional Animations from Textual Descriptions [54.85920052559239]
「どんなに非構造的で複雑で、文を作りながら、それからもっともらしい動きを生成できるのか。」
「映画の脚本から3Dキャラクタをアニメーションしたり、ロボットに何をしたいのかを伝えるだけで動かせるのか?」
論文 参考訳(メタデータ) (2021-03-26T18:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。