論文の概要: OMG: Towards Open-vocabulary Motion Generation via Mixture of
Controllers
- arxiv url: http://arxiv.org/abs/2312.08985v2
- Date: Mon, 18 Dec 2023 05:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 19:01:58.217150
- Title: OMG: Towards Open-vocabulary Motion Generation via Mixture of
Controllers
- Title(参考訳): OMG:コントローラの混合によるオープン語彙運動生成を目指して
- Authors: Han Liang, Jiacheng Bao, Ruichi Zhang, Sihan Ren, Yuecheng Xu, Sibei
Yang, Xin Chen, Jingyi Yu, Lan Xu
- Abstract要約: 我々は、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。
事前学習の段階では、ドメイン外固有のリッチな動作特性を学習することで、生成能力を向上させる。
微調整の段階では、テキストプロンプトを条件情報として組み込んだモーションコントロールネットを導入する。
- 参考スコア(独自算出の注目度): 47.53127037556484
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We have recently seen tremendous progress in realistic text-to-motion
generation. Yet, the existing methods often fail or produce implausible motions
with unseen text inputs, which limits the applications. In this paper, we
present OMG, a novel framework, which enables compelling motion generation from
zero-shot open-vocabulary text prompts. Our key idea is to carefully tailor the
pretrain-then-finetune paradigm into the text-to-motion generation. At the
pre-training stage, our model improves the generation ability by learning the
rich out-of-domain inherent motion traits. To this end, we scale up a large
unconditional diffusion model up to 1B parameters, so as to utilize the massive
unlabeled motion data up to over 20M motion instances. At the subsequent
fine-tuning stage, we introduce motion ControlNet, which incorporates text
prompts as conditioning information, through a trainable copy of the
pre-trained model and the proposed novel Mixture-of-Controllers (MoC) block.
MoC block adaptively recognizes various ranges of the sub-motions with a
cross-attention mechanism and processes them separately with the
text-token-specific experts. Such a design effectively aligns the CLIP token
embeddings of text prompts to various ranges of compact and expressive motion
features. Extensive experiments demonstrate that our OMG achieves significant
improvements over the state-of-the-art methods on zero-shot text-to-motion
generation. Project page: https://tr3e.github.io/omg-page.
- Abstract(参考訳): 最近、現実的なテキスト・モーション生成が著しく進歩しています。
しかし、既存の手法は、目に見えないテキスト入力で、しばしば失敗または不可解な動作を生成し、アプリケーションを制限する。
本稿では、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。
私たちの重要なアイデアは、事前トレーナー(pretrain-then-finetune)パラダイムを、テキストからモーション生成に慎重に調整することです。
事前学習段階では,豊富なドメイン外固有運動特性を学習することにより,生成能力を向上させる。
この目的のために,最大1bパラメータまでの大規模無条件拡散モデルをスケールアップし,2000万以上のモーションインスタンスの大規模非ラベル動作データを活用する。
その後の微調整段階では,事前学習したモデルの学習可能なコピーと提案する新しいmixed-of-controllers (moc)ブロックを用いて,テキストプロンプトを条件情報として組み込むモーションコントロールネットを導入する。
mocブロックはクロスアテンション機構を用いてサブモーションの様々な範囲を適応的に認識し、テキストトケンの専門家と個別に処理する。
このような設計は、テキストプロンプトのCLIPトークンの埋め込みを、様々なコンパクトかつ表現力のあるモーション特徴に効果的に調整する。
広汎な実験により、OMGはゼロショットテキスト・モーション生成における最先端手法よりも大幅に改善されていることが示された。
プロジェクトページ: https://tr3e.github.io/omg-page
関連論文リスト
- Textual Decomposition Then Sub-motion-space Scattering for Open-Vocabulary Motion Generation [74.94730615777212]
テキスト・トゥ・モーション・ジェネレーションはコンピュータビジョンにおいて重要なタスクであり、与えられたテキストによってターゲットとなる3Dモーションを生成する。
現在の注釈付きデータセットの限られたスケールでは、サブテキストスペースからサブモーションスペースへのマッピングしか実現できない。
本稿では,原子運動を中間表現として活用し,テキスト分解とサブモーション空間散乱という2つの秩序に結合したステップを活用することを提案する。
論文 参考訳(メタデータ) (2024-11-06T17:57:43Z) - Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。
我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。
テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-07-11T12:33:56Z) - BAMM: Bidirectional Autoregressive Motion Model [14.668729995275807]
Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。
BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。
この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
論文 参考訳(メタデータ) (2024-03-28T14:04:17Z) - Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。
新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。
FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文 参考訳(メタデータ) (2024-03-20T11:38:30Z) - FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing [56.29102849106382]
FineMoGenは拡散ベースのモーション生成および編集フレームワークである。
微細な動きを合成し、ユーザの指示に時空間の合成を施す。
FineMoGenはさらに、現代の大規模言語モデルの助けを借りて、ゼロショットモーション編集機能を可能にする。
論文 参考訳(メタデータ) (2023-12-22T16:56:02Z) - Action-GPT: Leveraging Large-scale Language Models for Improved and
Generalized Zero Shot Action Generation [8.753131760384964]
Action-GPTは、大規模言語モデルをテキストベースのアクション生成モデルに組み込むためのフレームワークである。
従来の動作句の代わりに詳細な記述を利用することで、テキストや動き空間のアライメントが向上することを示す。
論文 参考訳(メタデータ) (2022-11-28T17:57:48Z) - Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation
with Wordless Training [178.09150600453205]
本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。
NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。
本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
論文 参考訳(メタデータ) (2022-10-28T06:20:55Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。