論文の概要: OhMG: Zero-shot Open-vocabulary Human Motion Generation
- arxiv url: http://arxiv.org/abs/2210.15929v1
- Date: Fri, 28 Oct 2022 06:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 15:24:03.109015
- Title: OhMG: Zero-shot Open-vocabulary Human Motion Generation
- Title(参考訳): OMG:ゼロショットのオープン・ボキャブラリー・ヒューマン・モーション・ジェネレーション
- Authors: Junfan Lin, Jianlong Chang, Lingbo Liu, Guanbin Li, Liang Lin, Qi
Tian, Chang-wen Chen
- Abstract要約: オープンな3次元モーション生成のためのCLIPをゼロショット方式で活用する。
我々のモデルは2つの段階、すなわち text2pose と pose2motion で構成されている。
- 参考スコア(独自算出の注目度): 178.09150600453205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating motion in line with text has attracted increasing attention
nowadays. However, open-vocabulary human motion generation still remains
touchless and undergoes the lack of diverse labeled data. The good news is
that, recent studies of large multi-model foundation models (e.g., CLIP) have
demonstrated superior performance on few/zero-shot image-text alignment,
largely reducing the need for manually labeled data. In this paper, we take
advantage of CLIP for open-vocabulary 3D human motion generation in a zero-shot
manner. Specifically, our model is composed of two stages, i.e., text2pose and
pose2motion. For text2pose, to address the difficulty of optimization with
direct supervision from CLIP, we propose to carve the versatile CLIP model into
a slimmer but more specific model for aligning 3D poses and texts, via a novel
pipeline distillation strategy. Optimizing with the distilled 3D pose-text
model, we manage to concretize the text-pose knowledge of CLIP into a text2pose
generator effectively and efficiently. As for pose2motion, drawing inspiration
from the advanced language model, we pretrain a transformer-based motion model,
which makes up for the lack of motion dynamics of CLIP. After that, by
formulating the generated poses from the text2pose stage as prompts, the motion
generator can generate motions referring to the poses in a controllable and
flexible manner. Our method is validated against advanced baselines and obtains
sharp improvements. The code will be released here.
- Abstract(参考訳): 近年,テキストによる動きの生成が注目されている。
しかしながら、オープン語彙の人間のモーション生成はタッチレスのままであり、多様なラベル付きデータが欠如している。
良いニュースは、大規模なマルチモデル基盤モデル(例えば、CLIP)の研究が、少数/ゼロショットの画像テキストアライメントにおいて優れたパフォーマンスを示し、手動でラベル付けされたデータの必要性を大幅に減らしたことである。
本稿では,オープンな3次元モーション生成のためのCLIPをゼロショット方式で活用する。
具体的には,text2pose と pose2motion の2段階からなる。
text2pose では,CLIP からの直接監督による最適化の難しさに対処するため,新しいパイプライン蒸留戦略を用いて,多目的CLIP モデルをスリムで具体的な3D ポーズとテキストの整列モデルに彫ることを提案する。
蒸留した3Dポーズテキストモデルで最適化し,CLIPのテキスト目的知識をテキスト目的生成に効果的かつ効率的に活用する。
韻律2動きについて,先進言語モデルからインスピレーションを得て,CLIPの運動力学の欠如を補うトランスフォーマーに基づく運動モデルを事前学習する。
その後、テキスト2poseステージから生成されたポーズをプロンプトとして定式化することにより、このポーズを参照する動きを制御可能で柔軟な方法で生成することができる。
提案手法は高度ベースラインに対して検証され,大幅な改善が得られた。
コードはここでリリースされる。
関連論文リスト
- LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning [19.801187860991117]
この新しいLanguage-Motion PretrainingモデルであるLaMPを紹介する。
LaMPは、モーションインフォームティブなテキスト埋め込みを生成し、生成されたモーションシーケンスの関連性とセマンティックスを大幅に強化する。
キャプションでは,言語非表現の動作特徴を持つ大きな言語モデルを微調整し,強力な動きキャプションモデルを開発する。
論文 参考訳(メタデータ) (2024-10-09T17:33:03Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers [45.808597624491156]
我々は、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。
事前学習の段階では、ドメイン外固有のリッチな動作特性を学習することで、生成能力を向上させる。
微調整の段階では、テキストプロンプトを条件情報として組み込んだモーションコントロールネットを導入する。
論文 参考訳(メタデータ) (2023-12-14T14:31:40Z) - LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:59:52Z) - Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion
Model [11.873294782380984]
そこで本研究では,高精度なテキスト記述をサポートする高品質な条件付き人間の動作シーケンスを生成するための微細な手法を提案する。
本手法は,1) テキスト情報を完全に活用するための正確かつ完全な言語特徴を構築する言語構造支援モジュール,2) 多段階推論を実現するために,浅層および深層グラフニューラルネットワークから近隣および総合的な意味論的特徴を学習する文脈認識プログレッシブ推論モジュールの2つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-09-12T14:43:47Z) - TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of
3D Human Motions and Texts [20.336481832461168]
視覚と言語との強い結びつきから着想を得た本論文は,テキストから3次元人間のフルボディ運動の生成を探求することを目的とする。
本稿では,離散的かつコンパクトな動き表現である動きトークンを提案する。
私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。
論文 参考訳(メタデータ) (2022-07-04T19:52:18Z) - Event Transition Planning for Open-ended Text Generation [55.729259805477376]
オープンエンドテキスト生成タスクは、事前コンテキストに制限されたコヒーレントな継続を生成するためにモデルを必要とする。
オープンエンドテキスト生成におけるイベントを明示的にアレンジする新しい2段階手法を提案する。
我々のアプローチは、特別に訓練された粗大なアルゴリズムとして理解することができる。
論文 参考訳(メタデータ) (2022-04-20T13:37:51Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - PALM: Pre-training an Autoencoding&Autoregressive Language Model for
Context-conditioned Generation [92.7366819044397]
自己指導型事前学習は、自然言語の理解と生成のための強力な技術として登場した。
本研究は,大規模未ラベルコーパス上で自己エンコーディングと自己回帰言語モデルを共同で事前学習する新しいスキームをPALMに提示する。
広範な実験により、PALMは様々な言語生成ベンチマークにおいて、新しい最先端の結果を達成することが示されている。
論文 参考訳(メタデータ) (2020-04-14T06:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。