論文の概要: Exploring Text-to-Motion Generation with Human Preference
- arxiv url: http://arxiv.org/abs/2404.09445v1
- Date: Mon, 15 Apr 2024 04:14:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 13:29:14.445824
- Title: Exploring Text-to-Motion Generation with Human Preference
- Title(参考訳): 人選好によるテキスト・ツー・モーション生成の探索
- Authors: Jenny Sheng, Matthieu Lin, Andrew Zhao, Kevin Pruvost, Yu-Hui Wen, Yangguang Li, Gao Huang, Yong-Jin Liu,
- Abstract要約: 本稿では,テキスト・トゥ・モーション・ジェネレーションにおける嗜好学習の探索について述べる。
テキスト・トゥ・モーション・ジェネレーションの現在の改善は、まだモーションキャプチャシステムを備えたエキスパート・ラベラーを必要とするデータセットに依存していることがわかった。
我々は、好み学習が、現在のテキスト・ツー・モーション生成モデルを大幅に改善する可能性があることを示す。
- 参考スコア(独自算出の注目度): 59.28730218998923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an exploration of preference learning in text-to-motion generation. We find that current improvements in text-to-motion generation still rely on datasets requiring expert labelers with motion capture systems. Instead, learning from human preference data does not require motion capture systems; a labeler with no expertise simply compares two generated motions. This is particularly efficient because evaluating the model's output is easier than gathering the motion that performs a desired task (e.g. backflip). To pioneer the exploration of this paradigm, we annotate 3,528 preference pairs generated by MotionGPT, marking the first effort to investigate various algorithms for learning from preference data. In particular, our exploration highlights important design choices when using preference data. Additionally, our experimental results show that preference learning has the potential to greatly improve current text-to-motion generative models. Our code and dataset are publicly available at https://github.com/THU-LYJ-Lab/InstructMotion}{https://github.com/THU-LYJ-Lab/InstructMotion to further facilitate research in this area.
- Abstract(参考訳): 本稿では,テキスト・トゥ・モーション・ジェネレーションにおける嗜好学習の探索について述べる。
テキスト・トゥ・モーション・ジェネレーションの現在の改善は、まだモーションキャプチャシステムを備えたエキスパート・ラベラーを必要とするデータセットに依存していることがわかった。
その代わり、人間の好みデータから学ぶには、モーションキャプチャーシステムを必要としない。
これは特に効率的であるため、モデルの出力を評価することは、望ましいタスクを実行する動作(例えばbackflip)を収集するよりも容易である。
このパラダイムの探索の先駆けとして、MotionGPTが生成した3,528の選好ペアを注釈付けし、選好データから学習する様々なアルゴリズムを調査するための最初の試みを示す。
特に、私たちの調査では、好みデータを使用する際の重要な設計選択を強調しています。
さらに,本実験の結果から,嗜好学習は現在のテキスト・モーション生成モデルを大幅に改善する可能性が示唆された。
私たちのコードとデータセットはhttps://github.com/THU-LYJ-Lab/InstructMotion}{https://github.com/THU-LYJ-Lab/InstructMotionで公開されています。
関連論文リスト
- MotionFix: Text-Driven 3D Human Motion Editing [52.11745508960547]
主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルの設計である。
本研究では, (i) 震源運動, (ii) 目標運動, (iii) 編集テキストからなる三つ組のデータセットを半自動で収集する手法を提案する。
このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
論文 参考訳(メタデータ) (2024-08-01T16:58:50Z) - Data-Centric Human Preference Optimization with Rationales [23.243583332894737]
人間のフィードバックからの強化学習は、言語モデルを人間の好みに合わせる上で重要な役割を担っている。
この作業は、データ中心のアプローチによる好み学習の改善に重点を移す。
我々は、選択の背景にある理由を説明する機械生成論理を用いて、既存の嗜好データセットを豊かにすることを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:27:52Z) - Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval [4.454835029368504]
本稿では,自然動作記述に最も関係のあるシーケンスを検索することを目的とした,最近導入されたテキストモーション検索に注目した。
これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルをトレーニングするための不十分なデータである。
本稿では,複数のテキスト・モーション・データセットを同時にトレーニングする共同データセット学習について検討する。
また、骨格データのプロセスシーケンスに特定の時間的注意をあてる、MoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
論文 参考訳(メタデータ) (2024-07-02T09:43:47Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion
Data and Natural Language [4.86658723641864]
本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。
テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
論文 参考訳(メタデータ) (2023-05-25T08:32:41Z) - Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation
with Wordless Training [178.09150600453205]
本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。
NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。
本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
論文 参考訳(メタデータ) (2022-10-28T06:20:55Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Yet it moves: Learning from Generic Motions to Generate IMU data from
YouTube videos [5.008235182488304]
我々は、加速度計とジャイロ信号の両方の一般的な動きの回帰モデルをトレーニングして、合成IMUデータを生成する方法を示す。
我々は、回帰モデルにより生成されたシミュレーションデータに基づいてトレーニングされたシステムが、実センサデータに基づいてトレーニングされたシステムのF1スコアの平均の約10%に到達できることを実証した。
論文 参考訳(メタデータ) (2020-11-23T18:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。