論文の概要: Efficient Text-driven Motion Generation via Latent Consistency Training
- arxiv url: http://arxiv.org/abs/2405.02791v2
- Date: Sat, 25 May 2024 05:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 05:37:42.398039
- Title: Efficient Text-driven Motion Generation via Latent Consistency Training
- Title(参考訳): 遅延整合性学習によるテキスト駆動動作の効率的な生成
- Authors: Mengxian Hu, Minghao Zhu, Xun Zhou, Qingqing Yan, Shu Li, Chengju Liu, Qijun Chen,
- Abstract要約: 動き拡散モデルはテキスト駆動の動作生成において優れるが、リアルタイムの推論に苦慮する。
本研究では,コンパクトな動作遅延表現の大規模なスキップサンプリングを可能にする動き潜時整合トレーニングフレームワークを提案する。
2つのベンチマークの実験では、モデルの性能が80%の推論コスト削減で実証されている。
- 参考スコア(独自算出の注目度): 21.348658259929053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion diffusion models excel at text-driven motion generation but struggle with real-time inference since motion sequences are time-axis redundant and solving reverse diffusion trajectory involves tens or hundreds of sequential iterations. In this paper, we propose a Motion Latent Consistency Training (MLCT) framework, which allows for large-scale skip sampling of compact motion latent representation by constraining the consistency of the outputs of adjacent perturbed states on the precomputed trajectory. In particular, we design a flexible motion autoencoder with quantization constraints to guarantee the low-dimensionality, succinctness, and boundednes of the motion embedding space. We further present a conditionally guided consistency training framework based on conditional trajectory simulation without additional pre-training diffusion model, which significantly improves the conditional generation performance with minimal training cost. Experiments on two benchmarks demonstrate our model's state-of-the-art performance with an 80\% inference cost saving and around 14 ms on a single RTX 4090 GPU.
- Abstract(参考訳): 動き拡散モデルはテキスト駆動の動作生成において優れるが、動き列は時間軸の冗長であり、逆拡散軌道の解法は数十から数百の連続反復を含むため、リアルタイム推論に苦慮する。
本稿では,近接する摂動状態の出力の整合性を制限することで,コンパクトな動作遅延表現の大規模なスキップサンプリングを可能にするMLCT(Motion Latent Consistency Training)フレームワークを提案する。
特に,運動埋め込み空間の低次元性,簡潔性,および有界性を保証するために,量子化制約付きフレキシブルな運動オートエンコーダを設計する。
さらに,事前学習拡散モデルを追加せずに条件付き軌道シミュレーションに基づく条件付き整合性トレーニングフレームワークを提案し,トレーニングコストを最小にすることで条件付き生成性能を著しく向上させる。
2つのベンチマークの実験では、RTX 4090 GPUの8割の推論コストと約14ミリ秒で、我々のモデルの最先端性能が実証された。
関連論文リスト
- A First-order Generative Bilevel Optimization Framework for Diffusion Models [57.40597004445473]
拡散モデルは、データサンプルを反復的に分解して高品質な出力を合成する。
従来の二値法は無限次元の確率空間と禁制的なサンプリングコストのために失敗する。
我々はこの問題を生成的二段階最適化問題として定式化する。
従来の2段階法と拡散過程の非互換性を克服する。
論文 参考訳(メタデータ) (2025-02-12T21:44:06Z) - Decentralized Inference for Spatial Data Using Low-Rank Models [4.168323530566095]
本稿では,空間的低ランクモデルにおけるパラメータ推論に適した分散化フレームワークを提案する。
重要な障害は、観測中の空間的依存から生じ、ログのような状態が要約として表現されるのを防ぐ。
提案手法では,効率的なパラメータ最適化のために,マルチセンサと動的コンセンサス平均化を統合したブロック降下法を用いる。
論文 参考訳(メタデータ) (2025-02-01T04:17:01Z) - FlowDAS: A Flow-Based Framework for Data Assimilation [15.64941169350615]
FlowDASは、状態遷移ダイナミクスと生成前の学習を統合するために補間剤を用いた新しい生成モデルベースのフレームワークである。
実験では,ローレンツシステムから高次元流体超解像タスクに至るまで,様々なベンチマークにおいてFlowDASの優れた性能を示す。
論文 参考訳(メタデータ) (2025-01-13T05:03:41Z) - E2EDiff: Direct Mapping from Noise to Data for Enhanced Diffusion Models [15.270657838960114]
拡散モデルは生成モデリングの強力なフレームワークとして登場し、様々なタスクで最先端のパフォーマンスを実現している。
トレーニングサンプリングのギャップ、プログレッシブノイズ発生過程における情報漏洩、およびトレーニング中の知覚的および敵対的損失のような高度な損失関数を組み込むことができないことなど、いくつかの固有の制限に直面している。
本稿では,最終的な再構築出力を直接最適化することで,トレーニングとサンプリングのプロセスを整合させる,革新的なエンドツーエンドトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-30T16:06:31Z) - Diffusion Predictive Control with Constraints [51.91057765703533]
制約付き拡散予測制御(DPCC)
トレーニングデータから逸脱可能な、明示的な状態と行動制約を持つ拡散制御アルゴリズム。
DPCCは,学習した制御タスクの性能を維持しつつ,新しいテスト時間制約を満たす上で,既存の手法よりも優れるロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - On the Trajectory Regularity of ODE-based Diffusion Sampling [79.17334230868693]
拡散に基づく生成モデルは微分方程式を用いて、複素データ分布と抽出可能な事前分布の間の滑らかな接続を確立する。
本稿では,拡散モデルのODEに基づくサンプリングプロセスにおいて,いくつかの興味深い軌道特性を同定する。
論文 参考訳(メタデータ) (2024-05-18T15:59:41Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Non-Cross Diffusion for Semantic Consistency [12.645444338043934]
常微分方程式(ODE)モデルを学習するための生成モデリングにおける革新的アプローチであるNon-Cross Diffusionを導入する。
提案手法は,2つの分布からサンプリングされた点を非交差経路で効果的に接続する,入力の上昇次元を戦略的に組み込む。
論文 参考訳(メタデータ) (2023-11-30T05:53:39Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。