論文の概要: Learning Generalizable Human Motion Generator with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.15541v1
- Date: Fri, 24 May 2024 13:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 13:59:53.574192
- Title: Learning Generalizable Human Motion Generator with Reinforcement Learning
- Title(参考訳): 強化学習による一般化可能な人力発電機の学習
- Authors: Yunyao Mao, Xiaoyang Liu, Wengang Zhou, Zhenbo Lu, Houqiang Li,
- Abstract要約: テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
- 参考スコア(独自算出の注目度): 95.62084727984808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven human motion generation, as one of the vital tasks in computer-aided content creation, has recently attracted increasing attention. While pioneering research has largely focused on improving numerical performance metrics on given datasets, practical applications reveal a common challenge: existing methods often overfit specific motion expressions in the training data, hindering their ability to generalize to novel descriptions like unseen combinations of motions. This limitation restricts their broader applicability. We argue that the aforementioned problem primarily arises from the scarcity of available motion-text pairs, given the many-to-many nature of text-driven motion generation. To tackle this problem, we formulate text-to-motion generation as a Markov decision process and present \textbf{InstructMotion}, which incorporate the trail and error paradigm in reinforcement learning for generalizable human motion generation. Leveraging contrastive pre-trained text and motion encoders, we delve into optimizing reward design to enable InstructMotion to operate effectively on both paired data, enhancing global semantic level text-motion alignment, and synthetic text-only data, facilitating better generalization to novel prompts without the need for ground-truth motion supervision. Extensive experiments on prevalent benchmarks and also our synthesized unpaired dataset demonstrate that the proposed InstructMotion achieves outstanding performance both quantitatively and qualitatively.
- Abstract(参考訳): 近年,コンピュータ支援コンテンツ作成における重要な課題の一つとして,テキスト駆動型ヒューマンモーション生成が注目されている。
先駆的な研究は、与えられたデータセット上での数値的なパフォーマンス指標の改善に重点を置いているが、実践的な応用は共通の課題を明らかにしている。既存の手法はトレーニングデータに特定の動作表現を過度に適合させ、目に見えない動きの組み合わせのような新しい記述に一般化する能力を妨げている。
この制限は適用範囲を制限します。
テキスト駆動モーション生成の多対多の性質を考えると、上記の問題はまず、利用可能なモーションテキストペアが不足していることから生じると論じる。
この問題に対処するため、マルコフ決定過程としてテキスト・トゥ・モーション生成を定式化し、一般化可能な人間の動作生成のための強化学習にパス・アンド・エラー・パラダイムを組み込んだ『textbf{InstructMotion}』を提示する。
コントラスト付き事前学習されたテキストとモーションエンコーダを活用することで、InstructMotionがペアデータの両方で効果的に動作できるように報酬設計を最適化し、グローバルな意味レベルテキストモーションアライメントと合成テキストオンリーなデータを拡張し、接地トルース動作監視を必要とせずに新規プロンプトへのより良い一般化を容易にする。
提案したInstructMotionは,有意な評価を定量的かつ定性的に達成することを示す。
関連論文リスト
- MotionRL: Align Text-to-Motion Generation to Human Preferences with Multi-Reward Reinforcement Learning [99.09906827676748]
我々は、テキスト・ツー・モーション生成タスクを最適化するために、Multi-Reward Reinforcement Learning(RL)を利用する最初のアプローチであるMotionRLを紹介する。
我々の新しいアプローチは、人間の知覚モデルに関する知識以前の人間の嗜好に基づいて、強化学習を用いて運動生成体を微調整する。
さらに、MotionRLは、テキストのアテンデンス、モーションクオリティ、人間の好みの最適性を近似する、新しい多目的最適化戦略を導入している。
論文 参考訳(メタデータ) (2024-10-09T03:27:14Z) - CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation [44.9991846328409]
群衆運動生成は、アニメーションやゲームなどのエンターテイメント産業や、都市シミュレーションや計画といった戦略的分野において不可欠である。
このフレームワークはLarge Language Model(LLM)のパワーを利用して、集合的なインテリジェンスをモーション生成フレームワークに組み込む。
本フレームワークは,(1)特定のシーン状況に応じた動きや動特性の調整を学習する群集シーンプランナ,(2)必要な集合運動を効率的に合成する集合モーションジェネレータの2つの重要な構成要素から構成される。
論文 参考訳(メタデータ) (2024-07-08T17:59:36Z) - Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval [4.454835029368504]
本稿では,自然動作記述に最も関係のあるシーケンスを検索することを目的とした,最近導入されたテキストモーション検索に注目した。
これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルをトレーニングするための不十分なデータである。
本稿では,複数のテキスト・モーション・データセットを同時にトレーニングする共同データセット学習について検討する。
また、骨格データのプロセスシーケンスに特定の時間的注意をあてる、MoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
論文 参考訳(メタデータ) (2024-07-02T09:43:47Z) - Text-controlled Motion Mamba: Text-Instructed Temporal Grounding of Human Motion [21.750804738752105]
テキストベースヒューマンモーショングラウンドティング(THMG)の新たな課題について紹介する。
TM-Mambaは、時間的グローバルコンテキスト、言語クエリ制御、空間グラフトポロジを線形メモリコストのみで統合する統一モデルである。
BABEL-Groundingは、人間の行動の詳細なテキスト記述と対応する時間セグメントを提供する最初のテキスト・モーション・データセットである。
論文 参考訳(メタデータ) (2024-04-17T13:33:09Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。