論文の概要: Back to Basics: Motion Representation Matters for Human Motion Generation Using Diffusion Model
- arxiv url: http://arxiv.org/abs/2512.04499v1
- Date: Thu, 04 Dec 2025 06:05:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.023624
- Title: Back to Basics: Motion Representation Matters for Human Motion Generation Using Diffusion Model
- Title(参考訳): 基本へ:拡散モデルを用いた人間の動き生成のための動き表現事項
- Authors: Yuduo Jin, Brandon Haworth,
- Abstract要約: 拡散モデルはヒトの運動合成において広く利用され、成功した方法論として現れてきた。
プロキシモーション拡散モデル(MDM)に基づく実証的研究を行う。
文献における6つの一般的な動作表現を評価し,その性能を品質と多様性の指標で比較した。
- 参考スコア(独自算出の注目度): 0.3768737590492548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have emerged as a widely utilized and successful methodology in human motion synthesis. Task-oriented diffusion models have significantly advanced action-to-motion, text-to-motion, and audio-to-motion applications. In this paper, we investigate fundamental questions regarding motion representations and loss functions in a controlled study, and we enumerate the impacts of various decisions in the workflow of the generative motion diffusion model. To answer these questions, we conduct empirical studies based on a proxy motion diffusion model (MDM). We apply v loss as the prediction objective on MDM (vMDM), where v is the weighted sum of motion data and noise. We aim to enhance the understanding of latent data distributions and provide a foundation for improving the state of conditional motion diffusion models. First, we evaluate the six common motion representations in the literature and compare their performance in terms of quality and diversity metrics. Second, we compare the training time under various configurations to shed light on how to speed up the training process of motion diffusion models. Finally, we also conduct evaluation analysis on a large motion dataset. The results of our experiments indicate clear performance differences across motion representations in diverse datasets. Our results also demonstrate the impacts of distinct configurations on model training and suggest the importance and effectiveness of these decisions on the outcomes of motion diffusion models.
- Abstract(参考訳): 拡散モデルはヒトの運動合成において広く利用され、成功した方法論として現れてきた。
タスク指向の拡散モデルは、アクション・トゥ・モーション、テキスト・トゥ・モーション、オーディオ・トゥ・モーションのアプリケーションに大きく進歩している。
本稿では,制御された研究における動作表現と損失関数に関する基本的な問題について検討し,生成的動き拡散モデルのワークフローにおける様々な決定の影響を列挙する。
これらの疑問に答えるために、我々はプロキシモーション拡散モデル(MDM)に基づく実証的研究を行った。
我々は、Vが動きデータと雑音の重み付け和であるMDM(vMDM)の予測対象としてv損失を適用した。
本研究の目的は、潜在データ分布の理解を深め、条件付き動き拡散モデルの状態を改善する基盤を提供することである。
まず,文献における6つの一般的な動作表現を評価し,その性能を品質と多様性の指標で比較する。
第二に、様々な構成下でのトレーニング時間を比較して、運動拡散モデルのトレーニングプロセスの高速化方法について光を当てる。
最後に,大規模な動きデータセットの評価分析を行う。
実験結果から,多様なデータセットの動作表現における性能差が明らかとなった。
また,異なる構成がモデル学習に与える影響を実証し,これらの決定が運動拡散モデルの結果に与える影響を示唆した。
関連論文リスト
- No MoCap Needed: Post-Training Motion Diffusion Models with Reinforcement Learning using Only Textual Prompts [16.05508249584636]
本稿では,テキストプロンプトのみを用いて事前学習した動き拡散モデルを微調整するポストトレーニングフレームワークを提案する。
私たちのアプローチは、動き適応のためのフレキシブルで、データ効率が高く、プライバシ保護のソリューションです。
論文 参考訳(メタデータ) (2025-10-08T13:12:10Z) - FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation [51.110607281391154]
FlowMoは、テキスト・ビデオ・モデルにおける動きコヒーレンスを高めるためのトレーニング不要のガイダンス手法である。
時間次元のパッチワイドな分散を測定して動きのコヒーレンスを推定し、サンプリング中にこの分散を動的に減少させるためにモデルを導く。
論文 参考訳(メタデータ) (2025-06-01T19:55:33Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Restoration based Generative Models [0.886014926770622]
デノイング拡散モデル(DDM)は、印象的な合成品質を示すことで注目を集めている。
本稿では、画像復元(IR)の観点からDDMの解釈を確立する。
本稿では,前処理の柔軟性を生かして,拡散過程と比較して性能を向上するマルチスケールトレーニングを提案する。
われわれのフレームワークは、新しいタイプのフレキシブル・ジェネラル・ジェネラル・ジェネレーティブ・モデルの設計の道を開いたと信じている。
論文 参考訳(メタデータ) (2023-02-20T00:53:33Z) - Efficient Diffusion Models for Vision: A Survey [34.610299976294904]
拡散モデル (DM) は, 逆行訓練を必要とせず, コンテンツ生成における最先端の性能を実証している。
DMは非平衡熱力学にインスパイアされ、本質的に高い計算複雑性を持つ。
DMはトレーニングと推論の段階でかなりの計算オーバーヘッドを発生させる。
論文 参考訳(メタデータ) (2022-10-07T06:46:13Z) - Diffusion Models in Vision: A Survey [73.10116197883303]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (2022-09-10T22:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。