Fugu-MT 論文翻訳(概要): DiverseMotion: Towards Diverse Human Motion Generation via Discrete Diffusion

論文の概要: DiverseMotion: Towards Diverse Human Motion Generation via Discrete Diffusion

arxiv url: http://arxiv.org/abs/2309.01372v1
Date: Mon, 4 Sep 2023 05:43:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-06 19:41:16.733980
Title: DiverseMotion: Towards Diverse Human Motion Generation via Discrete Diffusion
Title（参考訳）: diversitymotion:離散拡散による多様な人間の動き生成へ向けて
Authors: Yunhong Lou, Linchao Zhu, Yaxiong Wang, Xiaohan Wang, Yi Yang
Abstract要約: テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
参考スコア（独自算出の注目度）: 70.33381660741861
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present DiverseMotion, a new approach for synthesizing high-quality human motions conditioned on textual descriptions while preserving motion diversity.Despite the recent significant process in text-based human motion generation,existing methods often prioritize fitting training motions at the expense of action diversity. Consequently, striking a balance between motion quality and diversity remains an unresolved challenge. This problem is compounded by two key factors: 1) the lack of diversity in motion-caption pairs in existing benchmarks and 2) the unilateral and biased semantic understanding of the text prompt, focusing primarily on the verb component while neglecting the nuanced distinctions indicated by other words.In response to the first issue, we construct a large-scale Wild Motion-Caption dataset (WMC) to extend the restricted action boundary of existing well-annotated datasets, enabling the learning of diverse motions through a more extensive range of actions. To this end, a motion BLIP is trained upon a pretrained vision-language model, then we automatically generate diverse motion captions for the collected motion sequences. As a result, we finally build a dataset comprising 8,888 motions coupled with 141k text.To comprehensively understand the text command, we propose a Hierarchical Semantic Aggregation (HSA) module to capture the fine-grained semantics.Finally,we involve the above two designs into an effective Motion Discrete Diffusion (MDD) framework to strike a balance between motion quality and diversity. Extensive experiments on HumanML3D and KIT-ML show that our DiverseMotion achieves the state-of-the-art motion quality and competitive motion diversity. Dataset, code, and pretrained models will be released to reproduce all of our results.
Abstract（参考訳）: 本稿では,運動の多様性を保ちながら,文章記述に基づく高品質な人間の動作を合成する新しいアプローチであるdiversationmotionを提案する。その結果、動きの質と多様性のバランスを崩すことは未解決の課題である。この問題には2つの要因がある。 1)既存ベンチマークにおけるモーションキャプチャペアの多様性の欠如 2)テキストプロンプトの一方的かつ偏りのある意味理解は,動詞成分に主眼を置きながら,他の単語が示すニュアンスを無視する。第1号に応答して,既存のよく定義されたデータセットの制限された動作境界を拡張するために,大規模ワイルドモーションキャプチャデータセット(wmc)を構築し,より広範なアクションによる多様な動作の学習を可能にする。この目的のために、事前訓練された視覚言語モデルに基づいて動きBLIPを訓練し、収集した動き列に対する多様な動きキャプションを自動的に生成する。その結果,8,888の動作と141kテキストを組み合わせたデータセットを最終的に構築し,テキストコマンドを包括的に理解するために,細粒度セマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティクスを捕捉する階層的セマンティック・アグリゲーション(HSA)モジュールを提案する。 HumanML3DとKIT-MLの大規模な実験により、我々のDiverseMotionは最先端のモーション品質と競争力の多様性を達成することが示された。データセット、コード、事前訓練されたモデルがリリースされ、すべての結果が再現されます。

関連論文リスト

UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes [26.71077287710599]
シーン認識型人間の動作に拡散に基づく生成を利用する統一運動言語モデルUniHMを提案する。 UniHMは、複雑な3DシーンでText-to-MotionとText-to-Human-Object Interaction (HOI)の両方をサポートする最初のフレームワークである。提案手法では, 動作リアリズムを改善するために, 連続した6DoF運動と離散的な局所運動トークンを融合する混合運動表現, 従来のVQ-VAEを上回り, 再現精度と生成性能を両立させる新規なLook-Up-Free Quantization VAE, 強化されたバージョンの3つの重要なコントリビューションを導入している。
論文参考訳（メタデータ） (2025-05-19T07:02:12Z)
GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
Motion Anything: Any to Motion Generation [24.769413146731264]
Motion Anythingはマルチモーダルモーション生成フレームワークである。我々のモデルは、テキストや音楽を含む多モード条件を適応的に符号化し、制御性を向上させる。 Text-Music-Danceデータセットは2,153対のテキスト、音楽、ダンスで構成されており、AIST++の2倍の大きさである。
論文参考訳（メタデータ） (2025-03-10T06:04:31Z)
VersatileMotion: A Unified Framework for Motion Synthesis and Comprehension [26.172040706657235]
本稿では,VQ-VAEとフローマッチングを組み合わせた新しいモーショントークンと,自動回帰変換器のバックボーンを組み合わせた統合モーションLLMであるVersatileMotionを紹介する。 VersatileMotionは、単一のフレームワークで単一エージェントとマルチエージェントの動作を処理する最初の方法であり、7つのタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-11-26T11:28:01Z)
MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。 LLM(Large Language Models)によるマルチモーダル制御をサポートしている。難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文参考訳（メタデータ） (2024-10-29T05:25:34Z)
MotionCraft: Crafting Whole-Body Motion with Plug-and-Play Multimodal Controls [30.487510829107908]
プラグ・アンド・プレイ・マルチモーダル制御による全身動作を実現する統合拡散変換器であるMotionCraftを提案する。我々のフレームワークは、テキスト・ツー・モーション・セマンティック・トレーニングの第1段階から始まる粗大な訓練戦略を採用している。本稿では,SMPL-Xフォーマットを統一したマルチモーダル全体モーション生成ベンチマークMC-Benchを紹介する。
論文参考訳（メタデータ） (2024-07-30T18:57:06Z)
Towards Open Domain Text-Driven Synthesis of Multi-Person Motions [36.737740727883924]
我々は、大規模な画像とビデオのデータセットからポーズ情報を推定することで、人間のポーズと動きのデータセットをキュレートする。本手法は,多種多様なテキストプロンプトから多目的運動列を多種多様な多様性と忠実度で生成する最初の方法である。
論文参考訳（メタデータ） (2024-05-28T18:00:06Z)
Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。 SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文参考訳（メタデータ） (2024-03-15T10:36:24Z)
MotionMix: Weakly-Supervised Diffusion for Controllable Motion Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文参考訳（メタデータ） (2024-01-20T04:58:06Z)
Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。 M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文参考訳（メタデータ） (2023-08-28T10:40:16Z)
Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文参考訳（メタデータ） (2022-12-08T03:07:00Z)
Towards Diverse and Natural Scene-aware 3D Human Motion Synthesis [117.15586710830489]
本研究では,ターゲットアクションシーケンスの誘導の下で,多様なシーンを意識した人間の動作を合成する問題に焦点をあてる。この因子化スキームに基づいて、各サブモジュールが1つの側面をモデリングする責任を負う階層的なフレームワークが提案されている。実験の結果,提案手法は,多様性と自然性の観点から,従来の手法よりも著しく優れていた。
論文参考訳（メタデータ） (2022-05-25T18:20:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。