論文の概要: PackDiT: Joint Human Motion and Text Generation via Mutual Prompting
- arxiv url: http://arxiv.org/abs/2501.16551v1
- Date: Mon, 27 Jan 2025 22:51:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:43:08.771107
- Title: PackDiT: Joint Human Motion and Text Generation via Mutual Prompting
- Title(参考訳): PackDiT: 相互プロンプトによる共同動作とテキスト生成
- Authors: Zhongyu Jiang, Wenhao Chai, Zhuoran Zhou, Cheng-Yen Yang, Hsiang-Wei Huang, Jenq-Neng Hwang,
- Abstract要約: PackDiTは、様々なタスクを同時に実行できる最初の拡散ベースの生成モデルである。
我々はHumanML3Dデータセット上でPackDiTをトレーニングし、FIDスコア0.106で最先端のテキスト・トゥ・モーションのパフォーマンスを達成する。
さらに本実験は, 拡散モデルが, 自動回帰モデルに匹敵する性能を達成し, 動画像生成に有効であることを示す。
- 参考スコア(独自算出の注目度): 22.53146582495341
- License:
- Abstract: Human motion generation has advanced markedly with the advent of diffusion models. Most recent studies have concentrated on generating motion sequences based on text prompts, commonly referred to as text-to-motion generation. However, the bidirectional generation of motion and text, enabling tasks such as motion-to-text alongside text-to-motion, has been largely unexplored. This capability is essential for aligning diverse modalities and supports unconditional generation. In this paper, we introduce PackDiT, the first diffusion-based generative model capable of performing various tasks simultaneously, including motion generation, motion prediction, text generation, text-to-motion, motion-to-text, and joint motion-text generation. Our core innovation leverages mutual blocks to integrate multiple diffusion transformers (DiTs) across different modalities seamlessly. We train PackDiT on the HumanML3D dataset, achieving state-of-the-art text-to-motion performance with an FID score of 0.106, along with superior results in motion prediction and in-between tasks. Our experiments further demonstrate that diffusion models are effective for motion-to-text generation, achieving performance comparable to that of autoregressive models.
- Abstract(参考訳): 人間の運動生成は拡散モデルの出現とともに著しく進歩した。
近年の研究では、テキストプロンプトに基づく動き列の生成に焦点が当てられている(通常、テキスト・トゥ・モーション・ジェネレーションと呼ばれる)。
しかし、テキスト・トゥ・ムーブメントと並行して、モーション・トゥ・テキストなどのタスクを可能にする双方向の動作とテキストの生成は、ほとんど探索されていない。
この機能は多様なモダリティの整合に不可欠であり、無条件生成をサポートする。
本稿では,移動生成,動き予測,テキスト生成,テキスト・ツー・モーション,モーション・トゥ・テキスト,ジョイント・モーション・テキスト生成など,様々なタスクを同時に実行可能な最初の拡散型生成モデルであるPackDiTを紹介する。
我々の中心となるイノベーションは、相互ブロックを活用して、異なるモード間の多重拡散トランスフォーマー(DiT)をシームレスに統合する。
我々は、HumanML3Dデータセット上でPackDiTをトレーニングし、FIDスコア0.106で最先端のテキスト・トゥ・モーションのパフォーマンスを達成し、動作予測やタスク間における優れた結果を得る。
さらに本実験は, 拡散モデルが, 自動回帰モデルに匹敵する性能を達成し, 動画像生成に有効であることを示す。
関連論文リスト
- MoTe: Learning Motion-Text Diffusion Model for Multiple Generation Tasks [30.333659816277823]
動作とテキストの限界,条件,共同分布を同時に学習することで,多様なタスクを処理できる統合マルチモーダルモデルであるtextbfMoTe を提示する。
MoTeは3つのコンポーネントで構成されている: Motion-Decoder (MED)、Text-Decoder (TED)、Moti-on-Text Diffusion Model (MTDM)。
論文 参考訳(メタデータ) (2024-11-29T15:48:24Z) - MotionCraft: Crafting Whole-Body Motion with Plug-and-Play Multimodal Controls [30.487510829107908]
プラグ・アンド・プレイ・マルチモーダル制御による全身動作を実現する統合拡散変換器であるMotionCraftを提案する。
我々のフレームワークは、テキスト・ツー・モーション・セマンティック・トレーニングの第1段階から始まる粗大な訓練戦略を採用している。
本稿では,SMPL-Xフォーマットを統一したマルチモーダル全体モーション生成ベンチマークMC-Benchを紹介する。
論文 参考訳(メタデータ) (2024-07-30T18:57:06Z) - Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。
我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。
テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-07-11T12:33:56Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Make-An-Animation: Large-Scale Text-conditional 3D Human Motion
Generation [47.272177594990104]
テキスト条件付き人間動作生成モデルであるMake-An-Animationを紹介する。
大規模な画像テキストデータセットから、より多様なポーズとプロンプトを学ぶ。
テキスト・トゥ・モーション・ジェネレーションの最先端のパフォーマンスに到達します。
論文 参考訳(メタデータ) (2023-05-16T17:58:43Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of
3D Human Motions and Texts [20.336481832461168]
視覚と言語との強い結びつきから着想を得た本論文は,テキストから3次元人間のフルボディ運動の生成を探求することを目的とする。
本稿では,離散的かつコンパクトな動き表現である動きトークンを提案する。
私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。
論文 参考訳(メタデータ) (2022-07-04T19:52:18Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。