論文の概要: Efficient Text-driven Motion Generation via Latent Consistency Training
- arxiv url: http://arxiv.org/abs/2405.02791v2
- Date: Sat, 25 May 2024 05:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 05:37:42.398039
- Title: Efficient Text-driven Motion Generation via Latent Consistency Training
- Title(参考訳): 遅延整合性学習によるテキスト駆動動作の効率的な生成
- Authors: Mengxian Hu, Minghao Zhu, Xun Zhou, Qingqing Yan, Shu Li, Chengju Liu, Qijun Chen,
- Abstract要約: 動き拡散モデルはテキスト駆動の動作生成において優れるが、リアルタイムの推論に苦慮する。
本研究では,コンパクトな動作遅延表現の大規模なスキップサンプリングを可能にする動き潜時整合トレーニングフレームワークを提案する。
2つのベンチマークの実験では、モデルの性能が80%の推論コスト削減で実証されている。
- 参考スコア(独自算出の注目度): 21.348658259929053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion diffusion models excel at text-driven motion generation but struggle with real-time inference since motion sequences are time-axis redundant and solving reverse diffusion trajectory involves tens or hundreds of sequential iterations. In this paper, we propose a Motion Latent Consistency Training (MLCT) framework, which allows for large-scale skip sampling of compact motion latent representation by constraining the consistency of the outputs of adjacent perturbed states on the precomputed trajectory. In particular, we design a flexible motion autoencoder with quantization constraints to guarantee the low-dimensionality, succinctness, and boundednes of the motion embedding space. We further present a conditionally guided consistency training framework based on conditional trajectory simulation without additional pre-training diffusion model, which significantly improves the conditional generation performance with minimal training cost. Experiments on two benchmarks demonstrate our model's state-of-the-art performance with an 80\% inference cost saving and around 14 ms on a single RTX 4090 GPU.
- Abstract(参考訳): 動き拡散モデルはテキスト駆動の動作生成において優れるが、動き列は時間軸の冗長であり、逆拡散軌道の解法は数十から数百の連続反復を含むため、リアルタイム推論に苦慮する。
本稿では,近接する摂動状態の出力の整合性を制限することで,コンパクトな動作遅延表現の大規模なスキップサンプリングを可能にするMLCT(Motion Latent Consistency Training)フレームワークを提案する。
特に,運動埋め込み空間の低次元性,簡潔性,および有界性を保証するために,量子化制約付きフレキシブルな運動オートエンコーダを設計する。
さらに,事前学習拡散モデルを追加せずに条件付き軌道シミュレーションに基づく条件付き整合性トレーニングフレームワークを提案し,トレーニングコストを最小にすることで条件付き生成性能を著しく向上させる。
2つのベンチマークの実験では、RTX 4090 GPUの8割の推論コストと約14ミリ秒で、我々のモデルの最先端性能が実証された。
関連論文リスト
- Motion-prior Contrast Maximization for Dense Continuous-Time Motion Estimation [34.529280562470746]
コントラスト最大化フレームワークと非直線運動を組み合わせた新たな自己監督的損失を画素レベルの軌跡の形で導入する。
連続時間運動の高密度推定では, 合成学習モデルのゼロショット性能を29%向上する。
論文 参考訳(メタデータ) (2024-07-15T15:18:28Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation [57.539634387672656]
現在の最先端生成拡散モデルでは、優れた結果が得られたが、品質を犠牲にすることなく、高速な生成に苦慮している。
高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。
論文 参考訳(メタデータ) (2023-12-04T18:58:38Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - Evolve Smoothly, Fit Consistently: Learning Smooth Latent Dynamics For
Advection-Dominated Systems [14.553972457854517]
複雑な物理系のサロゲートモデルを学ぶための,データ駆動・時空連続フレームワークを提案する。
ネットワークの表現力と特別に設計された整合性誘導正規化を利用して,低次元かつ滑らかな潜在軌道を得る。
論文 参考訳(メタデータ) (2023-01-25T03:06:03Z) - ProgressiveMotionSeg: Mutually Reinforced Framework for Event-Based
Motion Segmentation [101.19290845597918]
本稿では,動作推定 (ME) モジュールとイベントデノイング (ED) モジュールを相互に強化された方法で共同最適化する。
時間的相関をガイダンスとして、EDモジュールは各イベントが実活動イベントに属するという信頼度を算出し、MEモジュールに送信し、ノイズ抑制のための運動セグメンテーションのエネルギー関数を更新する。
論文 参考訳(メタデータ) (2022-03-22T13:40:26Z) - Motion Deblurring with Real Events [50.441934496692376]
本稿では,イベントベースの動作を自己教師型で記述するエンド・ツー・エンドの学習フレームワークを提案する。
実世界のイベントは、データ不整合によるパフォーマンス劣化を軽減するために利用される。
論文 参考訳(メタデータ) (2021-09-28T13:11:44Z) - Learning a Generative Motion Model from Image Sequences based on a
Latent Motion Matrix [8.774604259603302]
画像列の時間的登録をシミュレートして確率的動きモデルを学ぶ。
3つの最先端登録アルゴリズムと比較して,登録精度と時間的にスムーズな整合性が改善された。
また, フレームの欠落のあるシーケンスからの動作再構成を改良し, 動作解析, シミュレーション, 超解像に対するモデルの適用性を実証した。
論文 参考訳(メタデータ) (2020-11-03T14:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。