論文の概要: DeMoGen: Towards Decompositional Human Motion Generation with Energy-Based Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.22324v1
- Date: Fri, 26 Dec 2025 15:06:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.996843
- Title: DeMoGen: Towards Decompositional Human Motion Generation with Energy-Based Diffusion Models
- Title(参考訳): DeMoGen:エネルギーベース拡散モデルによる分解型人体運動生成を目指して
- Authors: Jianrong Zhang, Hehe Fan, Yi Yang,
- Abstract要約: 本稿では,分解学習のための合成学習パラダイムであるDeMoGenを提案する。
動作の分解的理解を促進するために,3種類の訓練用変種を導入する。
また、分解された動きの概念を柔軟に組み換えることで、多種多様な新しい動きを生成できることを実証した。
- 参考スコア(独自算出の注目度): 32.501737272601225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human motions are compositional: complex behaviors can be described as combinations of simpler primitives. However, existing approaches primarily focus on forward modeling, e.g., learning holistic mappings from text to motion or composing a complex motion from a set of motion concepts. In this paper, we consider the inverse perspective: decomposing a holistic motion into semantically meaningful sub-components. We propose DeMoGen, a compositional training paradigm for decompositional learning that employs an energy-based diffusion model. This energy formulation directly captures the composed distribution of multiple motion concepts, enabling the model to discover them without relying on ground-truth motions for individual concepts. Within this paradigm, we introduce three training variants to encourage a decompositional understanding of motion: 1. DeMoGen-Exp explicitly trains on decomposed text prompts; 2. DeMoGen-OSS performs orthogonal self-supervised decomposition; 3. DeMoGen-SC enforces semantic consistency between original and decomposed text embeddings. These variants enable our approach to disentangle reusable motion primitives from complex motion sequences. We also demonstrate that the decomposed motion concepts can be flexibly recombined to generate diverse and novel motions, generalizing beyond the training distribution. Additionally, we construct a text-decomposed dataset to support compositional training, serving as an extended resource to facilitate text-to-motion generation and motion composition.
- Abstract(参考訳): 人間の動きは構成的であり、複雑な振る舞いは単純なプリミティブの組み合わせとして記述することができる。
しかし、既存のアプローチは主にフォワードモデリング、例えばテキストからモーションへの全体論的マッピングの学習、あるいは一連のモーション概念から複雑なモーションを構成することに焦点を当てている。
本稿では,その逆の視点として,意味論的に意味のあるサブコンポーネントへの包括的動きの分解を考える。
エネルギーベース拡散モデルを用いた分解学習のための合成学習パラダイムであるDeMoGenを提案する。
このエネルギーの定式化は、複数の運動概念の合成された分布を直接キャプチャし、モデルが個々の概念に対して接地運動に頼ることなくそれらを発見することを可能にする。
このパラダイムの中では、動作の分解的理解を促進する3つのトレーニング変種を紹介します。
1. DeMoGen-Exp は、明示的に分解されたテキストプロンプトを訓練する。
2 DeMoGen-OSSは、直交自己監督分解を行う。
3. DeMoGen-SCは、オリジナルのテキストと分解されたテキストの埋め込み間のセマンティック一貫性を強制する。
これらの変種は、複素運動列から再利用可能な運動プリミティブをアンタングル化するアプローチを可能にする。
また、分解された運動概念を柔軟に組み換えることで、多種多様な新しい動きを生じさせ、トレーニング分布を超えて一般化できることを実証した。
さらに,テキスト・トゥ・モーション・ジェネレーションとモーション・コンポジションを容易にするための拡張リソースとして,コンポジショントレーニングを支援するためのテキスト分解データセットを構築した。
関連論文リスト
- SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - EnergyMoGen: Compositional Human Motion Generation with Energy-Based Diffusion Model in Latent Space [31.88362663621884]
本稿では,エネルギーベースモデルの2つのスペクトルを含むEnergyMoGenを提案する。
クロスアテンションに基づくセマンティック・アウェア・エネルギーモデルを提案する。
この設計により、運動潜伏拡散モデルは高品質で複雑な運動を合成することができる。
論文 参考訳(メタデータ) (2024-12-19T10:19:43Z) - Generation of Complex 3D Human Motion by Temporal and Spatial Composition of Diffusion Models [9.739611757541535]
私たちのアプローチでは、複雑なアクションをより単純な動き、特にトレーニング中に観察される動作に分解します。
これらの単純な動きは、拡散モデルの性質を用いて単一の現実的なアニメーションに結合される。
本研究では,2つの人間の動作データセットを基本的な動作と複雑な動作に分割して評価し,その性能を最先端の動作と比較する。
論文 参考訳(メタデータ) (2024-09-18T12:32:39Z) - FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis [65.85686550683806]
そこで本稿では, 条件付き動作分布を用いて, 単独動作と多人数動作を統一する動き生成手法を提案する。
筆者らの枠組みに基づいて,現在ある一対一動作空間制御手法をシームレスに統合し,多対一動作の正確な制御を実現する。
論文 参考訳(メタデータ) (2024-05-24T17:57:57Z) - AMD:Anatomical Motion Diffusion with Interpretable Motion Decomposition
and Fusion [11.689663297469945]
適応運動拡散モデルを提案する。
入力テキストを簡潔で解釈可能な解剖学的スクリプトのシーケンスにパースするために、LLM(Large Language Model)を利用する。
次に、逆拡散過程における入力テキストと解剖学的スクリプトの影響を均衡させる2分岐融合方式を考案する。
論文 参考訳(メタデータ) (2023-12-20T04:49:45Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。