論文の概要: Efficient Text-driven Motion Generation via Latent Consistency Training
- arxiv url: http://arxiv.org/abs/2405.02791v3
- Date: Fri, 29 Nov 2024 16:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:17:33.267243
- Title: Efficient Text-driven Motion Generation via Latent Consistency Training
- Title(参考訳): 遅延整合性学習によるテキスト駆動動作の効率的な生成
- Authors: Mengxian Hu, Minghao Zhu, Xun Zhou, Qingqing Yan, Shu Li, Chengju Liu, Qijun Chen,
- Abstract要約: 非線形逆拡散軌道を解くための動き潜時整合トレーニングフレームワーク(MLCT)を提案する。
これらの拡張を組み合わせることで、非画素モダリティおよび潜在表現空間における安定かつ一貫性のあるトレーニングを実現する。
- 参考スコア(独自算出の注目度): 21.348658259929053
- License:
- Abstract: Text-driven human motion generation based on diffusion strategies establishes a reliable foundation for multimodal applications in human-computer interactions. However, existing advances face significant efficiency challenges due to the substantial computational overhead of iteratively solving for nonlinear reverse diffusion trajectories during the inference phase. To this end, we propose the motion latent consistency training framework (MLCT), which precomputes reverse diffusion trajectories from raw data in the training phase and enables few-step or single-step inference via self-consistency constraints in the inference phase. Specifically, a motion autoencoder with quantization constraints is first proposed for constructing concise and bounded solution distributions for motion diffusion processes. Subsequently, a classifier-free guidance format is constructed via an additional unconditional loss function to accomplish the precomputation of conditional diffusion trajectories in the training phase. Finally, a clustering guidance module based on the K-nearest-neighbor algorithm is developed for the chain-conduction optimization mechanism of self-consistency constraints, which provides additional references of solution distributions at a small query cost. By combining these enhancements, we achieve stable and consistency training in non-pixel modality and latent representation spaces. Benchmark experiments demonstrate that our method significantly outperforms traditional consistency distillation methods with reduced training cost and enhances the consistency model to perform comparably to state-of-the-art models with lower inference costs.
- Abstract(参考訳): 拡散戦略に基づくテキスト駆動型ヒューマンモーション生成は、人間とコンピュータの相互作用におけるマルチモーダルアプリケーションのための信頼性の高い基盤を確立する。
しかし、既存の進歩は、推論フェーズにおける非線形逆拡散軌道に対する反復解の計算オーバーヘッドがかなり大きいため、大きな効率上の課題に直面している。
そこで本研究では,学習段階における生データからの逆拡散軌跡を事前に計算し,推論段階における自己整合性制約を介し,少数段階ないし単一段階の推論を可能にする動き潜時整合トレーニングフレームワーク(MLCT)を提案する。
具体的には、運動拡散過程の簡潔で有界な解分布を構築するために、量子化制約を持つ運動オートエンコーダが最初に提案される。
その後、訓練段階における条件拡散軌跡の事前計算を達成するために、追加の無条件損失関数を介して分類器フリーガイダンスフォーマットを構築する。
最後に,K-nearest-neighborアルゴリズムに基づくクラスタリング誘導モジュールを自己整合性制約の連鎖導電性最適化機構として開発し,より少ないクエリコストで解分布の参照を提供する。
これらの拡張を組み合わせることで、非画素モダリティおよび潜在表現空間における安定かつ一貫性のあるトレーニングを実現する。
ベンチマーク実験により, 従来の連続蒸留法よりもトレーニングコストが低減され, 精度が向上し, 推論コストの低い最先端モデルと相容れない結果が得られた。
関連論文リスト
- A First-order Generative Bilevel Optimization Framework for Diffusion Models [57.40597004445473]
拡散モデルは、データサンプルを反復的に分解して高品質な出力を合成する。
従来の二値法は無限次元の確率空間と禁制的なサンプリングコストのために失敗する。
我々はこの問題を生成的二段階最適化問題として定式化する。
従来の2段階法と拡散過程の非互換性を克服する。
論文 参考訳(メタデータ) (2025-02-12T21:44:06Z) - Decentralized Inference for Spatial Data Using Low-Rank Models [4.168323530566095]
本稿では,空間的低ランクモデルにおけるパラメータ推論に適した分散化フレームワークを提案する。
重要な障害は、観測中の空間的依存から生じ、ログのような状態が要約として表現されるのを防ぐ。
提案手法では,効率的なパラメータ最適化のために,マルチセンサと動的コンセンサス平均化を統合したブロック降下法を用いる。
論文 参考訳(メタデータ) (2025-02-01T04:17:01Z) - FlowDAS: A Flow-Based Framework for Data Assimilation [15.64941169350615]
FlowDASは、状態遷移ダイナミクスと生成前の学習を統合するために補間剤を用いた新しい生成モデルベースのフレームワークである。
実験では,ローレンツシステムから高次元流体超解像タスクに至るまで,様々なベンチマークにおいてFlowDASの優れた性能を示す。
論文 参考訳(メタデータ) (2025-01-13T05:03:41Z) - E2EDiff: Direct Mapping from Noise to Data for Enhanced Diffusion Models [15.270657838960114]
拡散モデルは生成モデリングの強力なフレームワークとして登場し、様々なタスクで最先端のパフォーマンスを実現している。
トレーニングサンプリングのギャップ、プログレッシブノイズ発生過程における情報漏洩、およびトレーニング中の知覚的および敵対的損失のような高度な損失関数を組み込むことができないことなど、いくつかの固有の制限に直面している。
本稿では,最終的な再構築出力を直接最適化することで,トレーニングとサンプリングのプロセスを整合させる,革新的なエンドツーエンドトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-30T16:06:31Z) - Diffusion Predictive Control with Constraints [51.91057765703533]
制約付き拡散予測制御(DPCC)
トレーニングデータから逸脱可能な、明示的な状態と行動制約を持つ拡散制御アルゴリズム。
DPCCは,学習した制御タスクの性能を維持しつつ,新しいテスト時間制約を満たす上で,既存の手法よりも優れるロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - On the Trajectory Regularity of ODE-based Diffusion Sampling [79.17334230868693]
拡散に基づく生成モデルは微分方程式を用いて、複素データ分布と抽出可能な事前分布の間の滑らかな接続を確立する。
本稿では,拡散モデルのODEに基づくサンプリングプロセスにおいて,いくつかの興味深い軌道特性を同定する。
論文 参考訳(メタデータ) (2024-05-18T15:59:41Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Non-Cross Diffusion for Semantic Consistency [12.645444338043934]
常微分方程式(ODE)モデルを学習するための生成モデリングにおける革新的アプローチであるNon-Cross Diffusionを導入する。
提案手法は,2つの分布からサンプリングされた点を非交差経路で効果的に接続する,入力の上昇次元を戦略的に組み込む。
論文 参考訳(メタデータ) (2023-11-30T05:53:39Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。