論文の概要: No MoCap Needed: Post-Training Motion Diffusion Models with Reinforcement Learning using Only Textual Prompts
- arxiv url: http://arxiv.org/abs/2510.06988v1
- Date: Wed, 08 Oct 2025 13:12:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.507089
- Title: No MoCap Needed: Post-Training Motion Diffusion Models with Reinforcement Learning using Only Textual Prompts
- Title(参考訳): モキャップは不要:テキストプロンプトのみを用いた強化学習を用いた後運動拡散モデル
- Authors: Girolamo Macaluso, Lorenzo Mandelli, Mirko Bicchierai, Stefano Berretti, Andrew D. Bagdanov,
- Abstract要約: 本稿では,テキストプロンプトのみを用いて事前学習した動き拡散モデルを微調整するポストトレーニングフレームワークを提案する。
私たちのアプローチは、動き適応のためのフレキシブルで、データ効率が高く、プライバシ保護のソリューションです。
- 参考スコア(独自算出の注目度): 16.05508249584636
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion models have recently advanced human motion generation, producing realistic and diverse animations from textual prompts. However, adapting these models to unseen actions or styles typically requires additional motion capture data and full retraining, which is costly and difficult to scale. We propose a post-training framework based on Reinforcement Learning that fine-tunes pretrained motion diffusion models using only textual prompts, without requiring any motion ground truth. Our approach employs a pretrained text-motion retrieval network as a reward signal and optimizes the diffusion policy with Denoising Diffusion Policy Optimization, effectively shifting the model's generative distribution toward the target domain without relying on paired motion data. We evaluate our method on cross-dataset adaptation and leave-one-out motion experiments using the HumanML3D and KIT-ML datasets across both latent- and joint-space diffusion architectures. Results from quantitative metrics and user studies show that our approach consistently improves the quality and diversity of generated motions, while preserving performance on the original distribution. Our approach is a flexible, data-efficient, and privacy-preserving solution for motion adaptation.
- Abstract(参考訳): 拡散モデルは最近、人間のモーション生成を進歩させ、テキストのプロンプトからリアルで多様なアニメーションを生み出した。
しかし、これらのモデルを目に見えないアクションやスタイルに適応させるには、通常、追加のモーションキャプチャデータとフルリトレーニングが必要です。
本稿では,テキストのプロンプトのみを用いて,運動基盤の真偽を必要とせず,事前学習した運動拡散モデルを微調整する強化学習に基づく後学習フレームワークを提案する。
提案手法では,事前学習したテキスト移動検索ネットワークを報酬信号として利用し,デノイング拡散ポリシー最適化を用いて拡散ポリシーを最適化し,ペアの動きデータに頼ることなく,モデルの生成分布を対象領域に効果的にシフトする。
我々は,HumanML3DとKIT-MLのデータセットを潜在空間拡散アーキテクチャと共同空間拡散アーキテクチャの両方で比較し,データセットの相互適応と残余運動実験について検討した。
測定値とユーザスタディの結果から,本手法は生成した動きの質と多様性を常に改善するとともに,元の分布における性能を保っていることが示された。
私たちのアプローチは、動き適応のためのフレキシブルで、データ効率が高く、プライバシ保護のソリューションです。
関連論文リスト
- Reinforcement Learning with Inverse Rewards for World Model Post-training [29.19830208692156]
ビデオワールドモデルにおける動作追跡を改善するために,逆回帰を用いた強化学習を提案する。
RLIRは、逆ダイナミクスモデルを用いて生成されたビデオから入力アクションを復元することにより、検証可能な報酬信号を導出する。
論文 参考訳(メタデータ) (2025-09-28T16:27:47Z) - FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation [51.110607281391154]
FlowMoは、テキスト・ビデオ・モデルにおける動きコヒーレンスを高めるためのトレーニング不要のガイダンス手法である。
時間次元のパッチワイドな分散を測定して動きのコヒーレンスを推定し、サンプリング中にこの分散を動的に減少させるためにモデルを導く。
論文 参考訳(メタデータ) (2025-06-01T19:55:33Z) - Towards Robust and Controllable Text-to-Motion via Masked Autoregressive Diffusion [33.9786226622757]
テキスト記述から3次元動作を生成するための頑健な動き生成フレームワークMoMADiffを提案する。
我々のモデルはフレキシブルなユーザ提供仕様をサポートし、動き合成の空間的側面と時間的側面の両方を正確に制御できる。
提案手法は, 動作品質, 命令忠実度, 定着度において, 常に最先端のモデルより優れる。
論文 参考訳(メタデータ) (2025-05-16T09:06:15Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Video Diffusion Models are Training-free Motion Interpreter and Controller [20.361790608772157]
本稿では,映像拡散モデルにおける動き認識機能を理解し,ローカライズし,操作するための新しい視点を提案する。
コンテンツ相関情報とフィルタリング動作チャネルを除去し,MOFT(Motion FeaTure)を提案する。
論文 参考訳(メタデータ) (2024-05-23T17:59:40Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。