論文の概要: OMG: Towards Open-vocabulary Motion Generation via Mixture of
Controllers
- arxiv url: http://arxiv.org/abs/2312.08985v2
- Date: Mon, 18 Dec 2023 05:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 19:01:58.217150
- Title: OMG: Towards Open-vocabulary Motion Generation via Mixture of
Controllers
- Title(参考訳): OMG:コントローラの混合によるオープン語彙運動生成を目指して
- Authors: Han Liang, Jiacheng Bao, Ruichi Zhang, Sihan Ren, Yuecheng Xu, Sibei
Yang, Xin Chen, Jingyi Yu, Lan Xu
- Abstract要約: 我々は、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。
事前学習の段階では、ドメイン外固有のリッチな動作特性を学習することで、生成能力を向上させる。
微調整の段階では、テキストプロンプトを条件情報として組み込んだモーションコントロールネットを導入する。
- 参考スコア(独自算出の注目度): 47.53127037556484
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We have recently seen tremendous progress in realistic text-to-motion
generation. Yet, the existing methods often fail or produce implausible motions
with unseen text inputs, which limits the applications. In this paper, we
present OMG, a novel framework, which enables compelling motion generation from
zero-shot open-vocabulary text prompts. Our key idea is to carefully tailor the
pretrain-then-finetune paradigm into the text-to-motion generation. At the
pre-training stage, our model improves the generation ability by learning the
rich out-of-domain inherent motion traits. To this end, we scale up a large
unconditional diffusion model up to 1B parameters, so as to utilize the massive
unlabeled motion data up to over 20M motion instances. At the subsequent
fine-tuning stage, we introduce motion ControlNet, which incorporates text
prompts as conditioning information, through a trainable copy of the
pre-trained model and the proposed novel Mixture-of-Controllers (MoC) block.
MoC block adaptively recognizes various ranges of the sub-motions with a
cross-attention mechanism and processes them separately with the
text-token-specific experts. Such a design effectively aligns the CLIP token
embeddings of text prompts to various ranges of compact and expressive motion
features. Extensive experiments demonstrate that our OMG achieves significant
improvements over the state-of-the-art methods on zero-shot text-to-motion
generation. Project page: https://tr3e.github.io/omg-page.
- Abstract(参考訳): 最近、現実的なテキスト・モーション生成が著しく進歩しています。
しかし、既存の手法は、目に見えないテキスト入力で、しばしば失敗または不可解な動作を生成し、アプリケーションを制限する。
本稿では、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。
私たちの重要なアイデアは、事前トレーナー(pretrain-then-finetune)パラダイムを、テキストからモーション生成に慎重に調整することです。
事前学習段階では,豊富なドメイン外固有運動特性を学習することにより,生成能力を向上させる。
この目的のために,最大1bパラメータまでの大規模無条件拡散モデルをスケールアップし,2000万以上のモーションインスタンスの大規模非ラベル動作データを活用する。
その後の微調整段階では,事前学習したモデルの学習可能なコピーと提案する新しいmixed-of-controllers (moc)ブロックを用いて,テキストプロンプトを条件情報として組み込むモーションコントロールネットを導入する。
mocブロックはクロスアテンション機構を用いてサブモーションの様々な範囲を適応的に認識し、テキストトケンの専門家と個別に処理する。
このような設計は、テキストプロンプトのCLIPトークンの埋め込みを、様々なコンパクトかつ表現力のあるモーション特徴に効果的に調整する。
広汎な実験により、OMGはゼロショットテキスト・モーション生成における最先端手法よりも大幅に改善されていることが示された。
プロジェクトページ: https://tr3e.github.io/omg-page
関連論文リスト
- MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - Plan, Posture and Go: Towards Open-World Text-to-Motion Generation [43.392549755386135]
Pro-Motion という分断型フレームワークを提案する。
モーションプランナー、姿勢ディフューザ、go-diffuserの3つのモジュールで構成されている。
Pro-Motionは複雑なオープンワールドプロンプトから多様でリアルな動きを生成することができる。
論文 参考訳(メタデータ) (2023-12-22T17:02:45Z) - FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing [56.29102849106382]
FineMoGenは拡散ベースのモーション生成および編集フレームワークである。
微細な動きを合成し、ユーザの指示に時空間の合成を施す。
FineMoGenはさらに、現代の大規模言語モデルの助けを借りて、ゼロショットモーション編集機能を可能にする。
論文 参考訳(メタデータ) (2023-12-22T16:56:02Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - Action-GPT: Leveraging Large-scale Language Models for Improved and
Generalized Zero Shot Action Generation [8.753131760384964]
Action-GPTは、大規模言語モデルをテキストベースのアクション生成モデルに組み込むためのフレームワークである。
従来の動作句の代わりに詳細な記述を利用することで、テキストや動き空間のアライメントが向上することを示す。
論文 参考訳(メタデータ) (2022-11-28T17:57:48Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation
with Wordless Training [178.09150600453205]
本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。
NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。
本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
論文 参考訳(メタデータ) (2022-10-28T06:20:55Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。