論文の概要: Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation
with Wordless Training
- arxiv url: http://arxiv.org/abs/2210.15929v3
- Date: Fri, 24 Mar 2023 08:43:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 18:22:22.059073
- Title: Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation
with Wordless Training
- Title(参考訳): 言葉なし学習によるオープン語彙テキスト・トゥ・モーション生成
- Authors: Junfan Lin, Jianlong Chang, Lingbo Liu, Guanbin Li, Liang Lin, Qi
Tian, Chang Wen Chen
- Abstract要約: 本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。
NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。
本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
- 参考スコア(独自算出の注目度): 178.09150600453205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-motion generation is an emerging and challenging problem, which aims
to synthesize motion with the same semantics as the input text. However, due to
the lack of diverse labeled training data, most approaches either limit to
specific types of text annotations or require online optimizations to cater to
the texts during inference at the cost of efficiency and stability. In this
paper, we investigate offline open-vocabulary text-to-motion generation in a
zero-shot learning manner that neither requires paired training data nor extra
online optimization to adapt for unseen texts. Inspired by the prompt learning
in NLP, we pretrain a motion generator that learns to reconstruct the full
motion from the masked motion. During inference, instead of changing the motion
generator, our method reformulates the input text into a masked motion as the
prompt for the motion generator to ``reconstruct'' the motion. In constructing
the prompt, the unmasked poses of the prompt are synthesized by a text-to-pose
generator. To supervise the optimization of the text-to-pose generator, we
propose the first text-pose alignment model for measuring the alignment between
texts and 3D poses. And to prevent the pose generator from overfitting to
limited training texts, we further propose a novel wordless training mechanism
that optimizes the text-to-pose generator without any training texts. The
comprehensive experimental results show that our method obtains a significant
improvement against the baseline methods. The code is available at
https://github.com/junfanlin/oohmg.
- Abstract(参考訳): テキストから動きへの生成は、入力テキストと同じ意味で動きを合成することを目的とした、新しくて困難な問題である。
しかしながら、多種多様なラベル付きトレーニングデータがないため、ほとんどのアプローチは特定のタイプのテキストアノテーションに制限するか、効率と安定性の犠牲で推論中のテキストに対応するためにオンライン最適化を必要とする。
本稿では,ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成を検証し,ペアトレーニングデータや,見当たらないテキストに適応するための追加のオンライン最適化を必要としない。
NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。
推論中,動作生成装置を変更する代わりに,動作生成装置が動作を「再構成」するプロンプトとして入力テキストをマスクされた動作に再構成する。
プロンプトを構築する際、プロンプトの未マストポーズをテキスト対ポス発生器で合成する。
テキスト対ポーズ生成器の最適化を監督するために,テキストと3dポーズのアライメントを測定するための最初のテキスト対ポーズアライメントモデルを提案する。
また、ポーズ生成器が限られたトレーニングテキストに過度に適合することを防止するため、トレーニングテキストを必要とせず、テキスト対ポーズ生成器を最適化する新しいワードレストレーニング機構を提案する。
総合実験の結果,本手法はベースライン法に対して有意な改善が得られた。
コードはhttps://github.com/junfanlin/oohmgで入手できる。
関連論文リスト
- LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning [19.801187860991117]
この新しいLanguage-Motion PretrainingモデルであるLaMPを紹介する。
LaMPは、モーションインフォームティブなテキスト埋め込みを生成し、生成されたモーションシーケンスの関連性とセマンティックスを大幅に強化する。
キャプションでは,言語非表現の動作特徴を持つ大きな言語モデルを微調整し,強力な動きキャプションモデルを開発する。
論文 参考訳(メタデータ) (2024-10-09T17:33:03Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers [45.808597624491156]
我々は、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。
事前学習の段階では、ドメイン外固有のリッチな動作特性を学習することで、生成能力を向上させる。
微調整の段階では、テキストプロンプトを条件情報として組み込んだモーションコントロールネットを導入する。
論文 参考訳(メタデータ) (2023-12-14T14:31:40Z) - LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:59:52Z) - Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion
Model [11.873294782380984]
そこで本研究では,高精度なテキスト記述をサポートする高品質な条件付き人間の動作シーケンスを生成するための微細な手法を提案する。
本手法は,1) テキスト情報を完全に活用するための正確かつ完全な言語特徴を構築する言語構造支援モジュール,2) 多段階推論を実現するために,浅層および深層グラフニューラルネットワークから近隣および総合的な意味論的特徴を学習する文脈認識プログレッシブ推論モジュールの2つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-09-12T14:43:47Z) - TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of
3D Human Motions and Texts [20.336481832461168]
視覚と言語との強い結びつきから着想を得た本論文は,テキストから3次元人間のフルボディ運動の生成を探求することを目的とする。
本稿では,離散的かつコンパクトな動き表現である動きトークンを提案する。
私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。
論文 参考訳(メタデータ) (2022-07-04T19:52:18Z) - Event Transition Planning for Open-ended Text Generation [55.729259805477376]
オープンエンドテキスト生成タスクは、事前コンテキストに制限されたコヒーレントな継続を生成するためにモデルを必要とする。
オープンエンドテキスト生成におけるイベントを明示的にアレンジする新しい2段階手法を提案する。
我々のアプローチは、特別に訓練された粗大なアルゴリズムとして理解することができる。
論文 参考訳(メタデータ) (2022-04-20T13:37:51Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - PALM: Pre-training an Autoencoding&Autoregressive Language Model for
Context-conditioned Generation [92.7366819044397]
自己指導型事前学習は、自然言語の理解と生成のための強力な技術として登場した。
本研究は,大規模未ラベルコーパス上で自己エンコーディングと自己回帰言語モデルを共同で事前学習する新しいスキームをPALMに提示する。
広範な実験により、PALMは様々な言語生成ベンチマークにおいて、新しい最先端の結果を達成することが示されている。
論文 参考訳(メタデータ) (2020-04-14T06:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。