Fugu-MT 論文翻訳(概要): OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers

論文の概要: OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers

arxiv url: http://arxiv.org/abs/2312.08985v3
Date: Tue, 19 Mar 2024 06:50:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 23:51:29.430768
Title: OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers
Title（参考訳）: OMG:コントローラの混合によるオープン語彙運動生成を目指して
Authors: Han Liang, Jiacheng Bao, Ruichi Zhang, Sihan Ren, Yuecheng Xu, Sibei Yang, Xin Chen, Jingyi Yu, Lan Xu,
Abstract要約: 我々は、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。事前学習の段階では、ドメイン外固有のリッチな動作特性を学習することで、生成能力を向上させる。微調整の段階では、テキストプロンプトを条件情報として組み込んだモーションコントロールネットを導入する。
参考スコア（独自算出の注目度）: 45.808597624491156
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We have recently seen tremendous progress in realistic text-to-motion generation. Yet, the existing methods often fail or produce implausible motions with unseen text inputs, which limits the applications. In this paper, we present OMG, a novel framework, which enables compelling motion generation from zero-shot open-vocabulary text prompts. Our key idea is to carefully tailor the pretrain-then-finetune paradigm into the text-to-motion generation. At the pre-training stage, our model improves the generation ability by learning the rich out-of-domain inherent motion traits. To this end, we scale up a large unconditional diffusion model up to 1B parameters, so as to utilize the massive unlabeled motion data up to over 20M motion instances. At the subsequent fine-tuning stage, we introduce motion ControlNet, which incorporates text prompts as conditioning information, through a trainable copy of the pre-trained model and the proposed novel Mixture-of-Controllers (MoC) block. MoC block adaptively recognizes various ranges of the sub-motions with a cross-attention mechanism and processes them separately with the text-token-specific experts. Such a design effectively aligns the CLIP token embeddings of text prompts to various ranges of compact and expressive motion features. Extensive experiments demonstrate that our OMG achieves significant improvements over the state-of-the-art methods on zero-shot text-to-motion generation. Project page: https://tr3e.github.io/omg-page.
Abstract（参考訳）: 最近、現実的なテキスト・ツー・モーション・ジェネレーションが大幅に進歩しました。しかし、既存の手法は、目に見えないテキスト入力で、しばしば失敗または不可解な動作を生成し、アプリケーションを制限する。本稿では、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。私たちのキーとなるアイデアは、プレトレイン-then-finetuneパラダイムをテキスト・トゥ・モーション・ジェネレーションに慎重に調整することです。事前学習の段階では、ドメイン外固有のリッチな動作特性を学習することで、生成能力を向上させる。この目的のために, 大規模非条件拡散モデルを最大1Bパラメータにスケールアップし, 最大2000万の動作インスタンスに対して, 大規模無ラベル動作データを利用する。その後の微調整段階では、事前訓練されたモデルと提案したMixture-of-Controllers(MoC)ブロックのトレーニング可能なコピーを通じて、テキストプロンプトを条件情報として組み込んだモーションコントロールネットを導入する。 MoCブロックは、クロスアテンション機構でサブモーションの様々な範囲を適応的に認識し、テキストトークンの専門家と個別に処理する。このような設計は、テキストプロンプトのCLIPトークンの埋め込みを、様々なコンパクトかつ表現力のあるモーション特徴に効果的に整合させる。広汎な実験により、OMGはゼロショットテキスト・モーション生成における最先端手法よりも大幅に改善されていることが示された。プロジェクトページ: https://tr3e.github.io/omg-page

関連論文リスト

Towards Robust and Controllable Text-to-Motion via Masked Autoregressive Diffusion [33.9786226622757]
テキスト記述から3次元動作を生成するための頑健な動き生成フレームワークMoMADiffを提案する。我々のモデルはフレキシブルなユーザ提供仕様をサポートし、動き合成の空間的側面と時間的側面の両方を正確に制御できる。提案手法は, 動作品質, 命令忠実度, 定着度において, 常に最先端のモデルより優れる。
論文参考訳（メタデータ） (2025-05-16T09:06:15Z)
SALAD: Skeleton-aware Latent Diffusion for Text-driven Motion Generation and Editing [5.123822132804602]
関節, フレーム, 単語間の複雑な相互関係を捉えるスケルトン対応潜伏拡散(SALAD)モデルを提案する。生成プロセス中に生成したクロスアテンションマップを利用することで、アテンションベースのゼロショットテキスト駆動モーション編集を可能にする。提案手法は, 生成品質を損なうことなく, テキスト・モーションアライメントにおいて, 従来手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2025-03-18T02:20:11Z)
ACMo: Attribute Controllable Motion Generation [31.603231536312688]
この研究は属性制御可能なモーション生成アーキテクチャを導入している。本研究では、属性拡散モデルを用いて、テキストとモーションを分離し、テキストとモーションのパフォーマンスを損なう。提案手法では,動作プロンプトをスタイリズし,微粒化とユーザフレンドリな属性制御を実現する。
論文参考訳（メタデータ） (2025-03-14T03:07:02Z)
PackDiT: Joint Human Motion and Text Generation via Mutual Prompting [22.53146582495341]
PackDiTは、様々なタスクを同時に実行できる最初の拡散ベースの生成モデルである。我々はHumanML3Dデータセット上でPackDiTをトレーニングし、FIDスコア0.106で最先端のテキスト・トゥ・モーションのパフォーマンスを達成する。さらに本実験は, 拡散モデルが, 自動回帰モデルに匹敵する性能を達成し, 動画像生成に有効であることを示す。
論文参考訳（メタデータ） (2025-01-27T22:51:45Z)
MoTe: Learning Motion-Text Diffusion Model for Multiple Generation Tasks [30.333659816277823]
動作とテキストの限界,条件,共同分布を同時に学習することで,多様なタスクを処理できる統合マルチモーダルモデルであるtextbfMoTe を提示する。 MoTeは3つのコンポーネントで構成されている: Motion-Decoder (MED)、Text-Decoder (TED)、Moti-on-Text Diffusion Model (MTDM)。
論文参考訳（メタデータ） (2024-11-29T15:48:24Z)
Textual Decomposition Then Sub-motion-space Scattering for Open-Vocabulary Motion Generation [74.94730615777212]
テキスト・トゥ・モーション・ジェネレーションはコンピュータビジョンにおいて重要なタスクであり、与えられたテキストによってターゲットとなる3Dモーションを生成する。現在の注釈付きデータセットの限られたスケールでは、サブテキストスペースからサブモーションスペースへのマッピングしか実現できない。本稿では,原子運動を中間表現として活用し,テキスト分解とサブモーション空間散乱という2つの秩序に結合したステップを活用することを提案する。
論文参考訳（メタデータ） (2024-11-06T17:57:43Z)
Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文参考訳（メタデータ） (2024-07-11T12:33:56Z)
BAMM: Bidirectional Autoregressive Motion Model [14.668729995275807]
Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。 BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
論文参考訳（メタデータ） (2024-03-28T14:04:17Z)
Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。 FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文参考訳（メタデータ） (2024-03-20T11:38:30Z)
FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing [56.29102849106382]
FineMoGenは拡散ベースのモーション生成および編集フレームワークである。微細な動きを合成し、ユーザの指示に時空間の合成を施す。 FineMoGenはさらに、現代の大規模言語モデルの助けを借りて、ゼロショットモーション編集機能を可能にする。
論文参考訳（メタデータ） (2023-12-22T16:56:02Z)
Action-GPT: Leveraging Large-scale Language Models for Improved and Generalized Zero Shot Action Generation [8.753131760384964]
Action-GPTは、大規模言語モデルをテキストベースのアクション生成モデルに組み込むためのフレームワークである。従来の動作句の代わりに詳細な記述を利用することで、テキストや動き空間のアライメントが向上することを示す。
論文参考訳（メタデータ） (2022-11-28T17:57:48Z)
Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation with Wordless Training [178.09150600453205]
本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。 NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
論文参考訳（メタデータ） (2022-10-28T06:20:55Z)
Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文参考訳（メタデータ） (2022-10-06T12:43:07Z)
MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文参考訳（メタデータ） (2022-08-31T17:58:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。