論文の概要: Efficient Text-driven Motion Generation via Latent Consistency Training
- arxiv url: http://arxiv.org/abs/2405.02791v1
- Date: Sun, 5 May 2024 02:11:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 18:20:16.707631
- Title: Efficient Text-driven Motion Generation via Latent Consistency Training
- Title(参考訳): 遅延整合性学習によるテキスト駆動動作の効率的な生成
- Authors: Mengxian Hu, Minghao Zhu, Xun Zhou, Qingqing Yan, Shu Li, Chengju Liu, Qijun Chen,
- Abstract要約: 動作生成のための動作遅延整合性トレーニング(MLCT)を提案し,推論時の計算量と時間消費を緩和する。
低次元運動潜在空間に拡散パイプラインを適用し,各関数評価の計算負担を軽減する。
2つの人体運動生成ベンチマーク実験により、提案モデルが10%未満の時間コストで最先端の性能を達成することを示す。
- 参考スコア(独自算出の注目度): 21.348658259929053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion diffusion models have recently proven successful for text-driven human motion generation. Despite their excellent generation performance, they are challenging to infer in real time due to the multi-step sampling mechanism that involves tens or hundreds of repeat function evaluation iterations. To this end, we investigate a motion latent consistency Training (MLCT) for motion generation to alleviate the computation and time consumption during iteration inference. It applies diffusion pipelines to low-dimensional motion latent spaces to mitigate the computational burden of each function evaluation. Explaining the diffusion process with probabilistic flow ordinary differential equation (PF-ODE) theory, the MLCT allows extremely few steps infer between the prior distribution to the motion latent representation distribution via maintaining consistency of the outputs over the trajectory of PF-ODE. Especially, we introduce a quantization constraint to optimize motion latent representations that are bounded, regular, and well-reconstructed compared to traditional variational constraints. Furthermore, we propose a conditional PF-ODE trajectory simulation method, which improves the conditional generation performance with minimal additional training costs. Extensive experiments on two human motion generation benchmarks show that the proposed model achieves state-of-the-art performance with less than 10\% time cost.
- Abstract(参考訳): 動き拡散モデルは最近、テキスト駆動による人間の動き生成に成功している。
生成性能は優れていますが,複数ステップのサンプリング機構が複数回,あるいは数百回繰り返し関数評価を繰り返しているため,リアルタイムに推測することは困難です。
そこで本研究では、動作生成のための動作遅延整合性トレーニング(MLCT)について検討し、反復推論時の計算と時間消費を緩和する。
低次元運動潜在空間に拡散パイプラインを適用し,各関数評価の計算負担を軽減する。
MLCTは、確率フロー常微分方程式(PF-ODE)理論を用いて拡散過程を記述し、PF-ODEの軌道上の出力の整合性を維持することにより、先行分布と運動潜在表現分布の間に非常に少ないステップを推測する。
特に、従来の変動制約と比較して、有界、正則、そしてよく再構成された動き潜在表現を最適化する量子化制約を導入する。
さらに,条件付きPF-ODEトラジェクトリシミュレーションを提案し,トレーニングコストを最小化して条件付き生成性能を向上させる。
2つの人体運動生成ベンチマークの大規模な実験により,提案モデルが10 % の時間コストで最先端の性能を達成できることが示されている。
関連論文リスト
- Motion-prior Contrast Maximization for Dense Continuous-Time Motion Estimation [34.529280562470746]
コントラスト最大化フレームワークと非直線運動を組み合わせた新たな自己監督的損失を画素レベルの軌跡の形で導入する。
連続時間運動の高密度推定では, 合成学習モデルのゼロショット性能を29%向上する。
論文 参考訳(メタデータ) (2024-07-15T15:18:28Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation [57.539634387672656]
現在の最先端生成拡散モデルでは、優れた結果が得られたが、品質を犠牲にすることなく、高速な生成に苦慮している。
高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。
論文 参考訳(メタデータ) (2023-12-04T18:58:38Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - Evolve Smoothly, Fit Consistently: Learning Smooth Latent Dynamics For
Advection-Dominated Systems [14.553972457854517]
複雑な物理系のサロゲートモデルを学ぶための,データ駆動・時空連続フレームワークを提案する。
ネットワークの表現力と特別に設計された整合性誘導正規化を利用して,低次元かつ滑らかな潜在軌道を得る。
論文 参考訳(メタデータ) (2023-01-25T03:06:03Z) - ProgressiveMotionSeg: Mutually Reinforced Framework for Event-Based
Motion Segmentation [101.19290845597918]
本稿では,動作推定 (ME) モジュールとイベントデノイング (ED) モジュールを相互に強化された方法で共同最適化する。
時間的相関をガイダンスとして、EDモジュールは各イベントが実活動イベントに属するという信頼度を算出し、MEモジュールに送信し、ノイズ抑制のための運動セグメンテーションのエネルギー関数を更新する。
論文 参考訳(メタデータ) (2022-03-22T13:40:26Z) - Motion Deblurring with Real Events [50.441934496692376]
本稿では,イベントベースの動作を自己教師型で記述するエンド・ツー・エンドの学習フレームワークを提案する。
実世界のイベントは、データ不整合によるパフォーマンス劣化を軽減するために利用される。
論文 参考訳(メタデータ) (2021-09-28T13:11:44Z) - Learning a Generative Motion Model from Image Sequences based on a
Latent Motion Matrix [8.774604259603302]
画像列の時間的登録をシミュレートして確率的動きモデルを学ぶ。
3つの最先端登録アルゴリズムと比較して,登録精度と時間的にスムーズな整合性が改善された。
また, フレームの欠落のあるシーケンスからの動作再構成を改良し, 動作解析, シミュレーション, 超解像に対するモデルの適用性を実証した。
論文 参考訳(メタデータ) (2020-11-03T14:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。