論文の概要: Rethinking Diffusion for Text-Driven Human Motion Generation
- arxiv url: http://arxiv.org/abs/2411.16575v1
- Date: Mon, 25 Nov 2024 16:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:13.273756
- Title: Rethinking Diffusion for Text-Driven Human Motion Generation
- Title(参考訳): テキスト駆動型ヒューマンモーション生成のための拡散の再考
- Authors: Zichong Meng, Yiming Xie, Xiaogang Peng, Zeyu Han, Huaizu Jiang,
- Abstract要約: 2023年以降、ベクトル量子化(VQ)に基づく離散生成法が人間の運動生成を支配している。
本研究では,現行のVQ法が有効である理由を考察し,既存の拡散型手法の限界について検討する。
本手法では,双方向のマスク付き自己回帰を行うことができるヒトの運動拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 8.153961351540834
- License:
- Abstract: Since 2023, Vector Quantization (VQ)-based discrete generation methods have rapidly dominated human motion generation, primarily surpassing diffusion-based continuous generation methods in standard performance metrics. However, VQ-based methods have inherent limitations. Representing continuous motion data as limited discrete tokens leads to inevitable information loss, reduces the diversity of generated motions, and restricts their ability to function effectively as motion priors or generation guidance. In contrast, the continuous space generation nature of diffusion-based methods makes them well-suited to address these limitations and with even potential for model scalability. In this work, we systematically investigate why current VQ-based methods perform well and explore the limitations of existing diffusion-based methods from the perspective of motion data representation and distribution. Drawing on these insights, we preserve the inherent strengths of a diffusion-based human motion generation model and gradually optimize it with inspiration from VQ-based approaches. Our approach introduces a human motion diffusion model enabled to perform bidirectional masked autoregression, optimized with a reformed data representation and distribution. Additionally, we also propose more robust evaluation methods to fairly assess different-based methods. Extensive experiments on benchmark human motion generation datasets demonstrate that our method excels previous methods and achieves state-of-the-art performances.
- Abstract(参考訳): 2023年以降、ベクトル量子化(VQ)に基づく離散生成法は、人間の運動生成を急速に支配し、主に標準的なパフォーマンス指標における拡散に基づく連続生成法を超越している。
しかしながら、VQベースの手法には固有の制限がある。
連続した動きデータを限定された離散トークンとして表現することは、避けられない情報損失をもたらし、生成された動きの多様性を減少させ、動きの先行や生成誘導として効果的に機能する能力を制限する。
対照的に、拡散に基づく手法の連続的な空間生成の性質は、これらの制限に対処するのに適しており、モデルスケーラビリティの可能性を秘めている。
本研究では,現行のVQ法がよく機能する理由を体系的に検討し,動きデータ表現と分布の観点から,既存の拡散型手法の限界について検討する。
これらの知見に基づいて、拡散に基づく人間の動き生成モデルの本質的な強みを保存し、VQに基づくアプローチからインスピレーションを得て徐々に最適化する。
提案手法では,データ表現と分散を最適化した,双方向のマスク付き自己回帰を実現するための人間の動き拡散モデルを提案する。
また,異なる手法を適切に評価するための,より堅牢な評価手法を提案する。
人間の動き生成データセットのベンチマーク実験により,提案手法が従来の手法を抜粋し,最先端の性能を達成できることが実証された。
関連論文リスト
- G2D2: Gradient-guided Discrete Diffusion for image inverse problem solving [55.185588994883226]
本稿では,従来の離散拡散に基づく画像生成モデルを活用することによって,線形逆問題に対処する新しい手法を提案する。
我々の知る限りでは、これは画像逆問題を解決するために離散拡散モデルに基づく先行手法を使う最初のアプローチである。
論文 参考訳(メタデータ) (2024-10-09T06:18:25Z) - Text-to-Image Rectified Flow as Plug-and-Play Priors [52.586838532560755]
整流流は、ソースからターゲット分布への線形進行を強制する新しい生成モデルのクラスである。
補正フローアプローチが生成品質と効率を上回り,推論ステップを少なくすることを示した。
また,画像のインバージョンや編集における競合性能も示す。
論文 参考訳(メタデータ) (2024-06-05T14:02:31Z) - Neural Flow Diffusion Models: Learnable Forward Process for Improved Diffusion Modelling [2.1779479916071067]
より広い範囲のプロセスをサポートすることで拡散モデルを強化する新しいフレームワークを提案する。
また,前処理を学習するための新しいパラメータ化手法を提案する。
結果はNFDMの汎用性と幅広い応用の可能性を評価する。
論文 参考訳(メタデータ) (2024-04-19T15:10:54Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - HuTuMotion: Human-Tuned Navigation of Latent Motion Diffusion Models
with Minimal Feedback [46.744192144648764]
HuTuMotionは、数発の人間のフィードバックを活用して潜伏運動拡散モデルをナビゲートする、自然な人間の動きを生成する革新的なアプローチである。
以上の結果から, 少ないフィードバックを活用すれば, 広範囲なフィードバックによって達成されたものと同程度の性能が得られることが判明した。
論文 参考訳(メタデータ) (2023-12-19T15:13:08Z) - Fast Sampling via Discrete Non-Markov Diffusion Models [49.598085130313514]
離散データ生成のための高速化された逆サンプリングを許容する離散非マルコフ拡散モデルを提案する。
提案手法は, ニューラルネットワークに対する関数評価の回数を大幅に削減し, サンプリング処理を高速化する。
論文 参考訳(メタデータ) (2023-12-14T18:14:11Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - STGlow: A Flow-based Generative Framework with Dual Graphormer for
Pedestrian Trajectory Prediction [22.553356096143734]
歩行者軌跡予測(STGlow)のための二重グラフマーを用いた新しい生成フローベースフレームワークを提案する。
本手法は,動作の正確なログライクな振る舞いを最適化することにより,基礎となるデータ分布をより正確にモデル化することができる。
いくつかのベンチマークによる実験結果から,本手法は従来の最先端手法に比べて性能が向上することが示された。
論文 参考訳(メタデータ) (2022-11-21T07:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。