論文の概要: MotionRL: Align Text-to-Motion Generation to Human Preferences with Multi-Reward Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.06513v1
- Date: Wed, 9 Oct 2024 03:27:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 05:18:55.534794
- Title: MotionRL: Align Text-to-Motion Generation to Human Preferences with Multi-Reward Reinforcement Learning
- Title(参考訳): MotionRL:マルチリワード強化学習による人選好のテキスト・ツー・モーション生成
- Authors: Xiaoyang Liu, Yunyao Mao, Wengang Zhou, Houqiang Li,
- Abstract要約: 我々は、テキスト・ツー・モーション生成タスクを最適化するために、Multi-Reward Reinforcement Learning(RL)を利用する最初のアプローチであるMotionRLを紹介する。
我々の新しいアプローチは、人間の知覚モデルに関する知識以前の人間の嗜好に基づいて、強化学習を用いて運動生成体を微調整する。
さらに、MotionRLは、テキストのアテンデンス、モーションクオリティ、人間の好みの最適性を近似する、新しい多目的最適化戦略を導入している。
- 参考スコア(独自算出の注目度): 99.09906827676748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MotionRL, the first approach to utilize Multi-Reward Reinforcement Learning (RL) for optimizing text-to-motion generation tasks and aligning them with human preferences. Previous works focused on improving numerical performance metrics on the given datasets, often neglecting the variability and subjectivity of human feedback. In contrast, our novel approach uses reinforcement learning to fine-tune the motion generator based on human preferences prior knowledge of the human perception model, allowing it to generate motions that better align human preferences. In addition, MotionRL introduces a novel multi-objective optimization strategy to approximate Pareto optimality between text adherence, motion quality, and human preferences. Extensive experiments and user studies demonstrate that MotionRL not only allows control over the generated results across different objectives but also significantly enhances performance across these metrics compared to other algorithms.
- Abstract(参考訳): 我々は、テキスト・ツー・モーション生成タスクを最適化し、それらを人間の好みに合わせるために、Multi-Reward Reinforcement Learning(RL)を利用する最初のアプローチであるMotionRLを紹介する。
以前の研究は、与えられたデータセットの数値的なパフォーマンス指標の改善に重点を置いており、人間のフィードバックの多様性と主観性を無視することが多かった。
対照的に、我々の新しいアプローチは強化学習を用いて人間の嗜好に基づく動き生成を微調整し、人間の嗜好をよりよく調整する動きを生成する。
さらに、MotionRLは、テキストのアテンデンス、モーションクオリティ、人間の好みのパレート最適性を近似する、新しい多目的最適化戦略を導入している。
大規模な実験とユーザスタディにより、MotionRLは、異なる目的に対して生成された結果の制御を可能にするだけでなく、他のアルゴリズムと比較して、これらのメトリクスのパフォーマンスを大幅に向上することを示した。
関連論文リスト
- TG-LLaVA: Text Guided LLaVA via Learnable Latent Embeddings [61.9257731511557]
視覚言語モデル(VLM)を最適化するためのテキストガイド付きLLaVA(TG-LLaVA)を提案する。
学習可能な潜伏埋め込みをブリッジとして使用し、テキスト命令を分析し、視覚エンコーダに解析結果をガイダンスとして付加する。
テキストのガイダンスによって、視覚エンコーダは、人間が質問を考えるとき、画像の最も関連性の高い部分に集中する方法と同様に、テキスト関連の特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-09-15T00:38:34Z) - Style Transfer with Multi-iteration Preference Optimization [27.5647739554034]
強化学習と選好最適化の関係を考察する。
これらの手法に触発されて、我々は確立された嗜好最適化アプローチを改善した。
2つの一般的なテキストスタイル転送データセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2024-06-17T14:20:53Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - TLControl: Trajectory and Language Control for Human Motion Synthesis [68.09806223962323]
本稿では,人間のリアルな動き合成のための新しい手法であるTLControlを提案する。
低レベルのTrajectoryと高レベルのLanguage semanticsコントロールが組み込まれている。
インタラクティブで高品質なアニメーション生成には実用的である。
論文 参考訳(メタデータ) (2023-11-28T18:54:16Z) - Improving Human Motion Prediction Through Continual Learning [2.720960618356385]
人間の動作予測は、より緊密な人間とロボットのコラボレーションを可能にするために不可欠な要素である。
人間の運動の変動は、人間のサイズの違いによる骨格レベルと、個々の動きの慣用性による運動レベルの両方で複合される。
本稿では、エンドツーエンドのトレーニングを可能にすると同時に、微調整の柔軟性も備えたモジュール型シーケンス学習手法を提案する。
論文 参考訳(メタデータ) (2021-07-01T15:34:41Z) - Multi-grained Trajectory Graph Convolutional Networks for
Habit-unrelated Human Motion Prediction [4.070072825448614]
習慣非関連な人間の運動予測のために, マルチグレイングラフ畳み込みネットワークベースの軽量フレームワークを提案する。
左利きの動作を生成するための新しい動き生成法を提案し,人間の習慣に偏りのない動きをより良くモデル化した。
humantemporal3.6m と cmu mocap を含む挑戦的データセットの実験結果は、提案モデルが0.12倍以下のパラメータで最先端を上回っていることを示している。
論文 参考訳(メタデータ) (2020-12-23T09:41:50Z) - Contextual Latent-Movements Off-Policy Optimization for Robotic
Manipulation Skills [41.140532647789456]
本稿では,低次元非線形潜在力学の獲得のために,実験軌道の扱いに関する新しい考え方を提案する。
LAAMPO (Latent-Movements Policy Optimization) と呼ばれる新しい文脈外RLアルゴリズムを導入する。
LAMPOは、文献における一般的なアプローチに対するサンプル効率のよいポリシーを提供する。
論文 参考訳(メタデータ) (2020-10-26T17:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。