論文の概要: EnergyMoGen: Compositional Human Motion Generation with Energy-Based Diffusion Model in Latent Space
- arxiv url: http://arxiv.org/abs/2412.14706v1
- Date: Thu, 19 Dec 2024 10:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:18.591333
- Title: EnergyMoGen: Compositional Human Motion Generation with Energy-Based Diffusion Model in Latent Space
- Title(参考訳): EnergyMoGen: 潜時空間におけるエネルギーベース拡散モデルを用いた構成的人体運動生成
- Authors: Jianrong Zhang, Hehe Fan, Yi Yang,
- Abstract要約: 本稿では,エネルギーベースモデルの2つのスペクトルを含むEnergyMoGenを提案する。
クロスアテンションに基づくセマンティック・アウェア・エネルギーモデルを提案する。
この設計により、運動潜伏拡散モデルは高品質で複雑な運動を合成することができる。
- 参考スコア(独自算出の注目度): 31.88362663621884
- License:
- Abstract: Diffusion models, particularly latent diffusion models, have demonstrated remarkable success in text-driven human motion generation. However, it remains challenging for latent diffusion models to effectively compose multiple semantic concepts into a single, coherent motion sequence. To address this issue, we propose EnergyMoGen, which includes two spectrums of Energy-Based Models: (1) We interpret the diffusion model as a latent-aware energy-based model that generates motions by composing a set of diffusion models in latent space; (2) We introduce a semantic-aware energy model based on cross-attention, which enables semantic composition and adaptive gradient descent for text embeddings. To overcome the challenges of semantic inconsistency and motion distortion across these two spectrums, we introduce Synergistic Energy Fusion. This design allows the motion latent diffusion model to synthesize high-quality, complex motions by combining multiple energy terms corresponding to textual descriptions. Experiments show that our approach outperforms existing state-of-the-art models on various motion generation tasks, including text-to-motion generation, compositional motion generation, and multi-concept motion generation. Additionally, we demonstrate that our method can be used to extend motion datasets and improve the text-to-motion task.
- Abstract(参考訳): 拡散モデル、特に潜伏拡散モデルは、テキスト駆動による人間の動き生成において顕著な成功を収めた。
しかし、潜在拡散モデルが複数の意味論的概念を単一のコヒーレントな動き列に効果的に構成することは依然として困難である。
この問題に対処するため,エネルギーベースモデルの2つのスペクトルを含むEnergyMoGenを提案する。(1) 拡散モデルを潜在空間における拡散モデルの集合を構成することによって動きを生成する潜在認識エネルギーベースモデルとして解釈し,(2) テキスト埋め込みのセマンティック合成と適応勾配降下を可能にする意味認識エネルギーモデルを提案する。
これら2つのスペクトル間の意味的不整合と運動歪みの問題を克服するために、Synergistic Energy Fusionを導入する。
この設計により、テキスト記述に対応する複数のエネルギー項を組み合わせることで、動き潜時拡散モデルにより高品質で複雑な動きを合成できる。
実験により,本手法は,テキスト・トゥ・モーション生成,コンポジション・モーション生成,マルチコンセプト・モーション生成など,さまざまな動作生成タスクにおいて,既存の最先端モデルよりも優れていることが示された。
さらに,動作データセットを拡張し,テキスト・トゥ・モーション・タスクを改善するために,本手法が有効であることを示す。
関連論文リスト
- PackDiT: Joint Human Motion and Text Generation via Mutual Prompting [22.53146582495341]
PackDiTは、様々なタスクを同時に実行できる最初の拡散ベースの生成モデルである。
我々はHumanML3Dデータセット上でPackDiTをトレーニングし、FIDスコア0.106で最先端のテキスト・トゥ・モーションのパフォーマンスを達成する。
さらに本実験は, 拡散モデルが, 自動回帰モデルに匹敵する性能を達成し, 動画像生成に有効であることを示す。
論文 参考訳(メタデータ) (2025-01-27T22:51:45Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - M2D2M: Multi-Motion Generation from Text with Discrete Diffusion Models [18.125860678409804]
テキスト記述から人間の動きを生成するための新しいアプローチであるM2D2M(Multi-Motion Discrete Diffusion Models)を紹介する。
M2D2Mは、マルチモーションシーケンスを生成するという課題に順応的に対処し、一連のアクション間の動きとコヒーレンスをシームレスに遷移させる。
論文 参考訳(メタデータ) (2024-07-19T17:57:33Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - AMD:Anatomical Motion Diffusion with Interpretable Motion Decomposition
and Fusion [11.689663297469945]
適応運動拡散モデルを提案する。
入力テキストを簡潔で解釈可能な解剖学的スクリプトのシーケンスにパースするために、LLM(Large Language Model)を利用する。
次に、逆拡散過程における入力テキストと解剖学的スクリプトの影響を均衡させる2分岐融合方式を考案する。
論文 参考訳(メタデータ) (2023-12-20T04:49:45Z) - Towards Detailed Text-to-Motion Synthesis via Basic-to-Advanced
Hierarchical Diffusion Model [60.27825196999742]
本稿では,B2A-HDMと呼ばれる新しい階層型拡散モデルを提案する。
特に、低次元ラテント空間における基本拡散モデルは、テキスト記述と整合した中間偏微分結果を与える。
高次元ラテント空間における高度な拡散モデルは、以下の詳細エンハンス・デノナイジング過程に焦点をあてる。
論文 参考訳(メタデータ) (2023-12-18T06:30:39Z) - Motion-Conditioned Diffusion Model for Controllable Video Synthesis [75.367816656045]
本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。
MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
論文 参考訳(メタデータ) (2023-04-27T17:59:32Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - Latent Diffusion Energy-Based Model for Interpretable Text Modeling [104.85356157724372]
本稿では,拡散モデルと潜時空間ESMの共生を変動学習フレームワークで導入する。
我々は,学習した潜在空間の品質を向上させるために,情報ボトルネックと合わせて幾何学的クラスタリングに基づく正規化を開発する。
論文 参考訳(メタデータ) (2022-06-13T03:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。