論文の概要: MCM: Multi-condition Motion Synthesis Framework
- arxiv url: http://arxiv.org/abs/2404.12886v1
- Date: Fri, 19 Apr 2024 13:40:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 14:57:17.381307
- Title: MCM: Multi-condition Motion Synthesis Framework
- Title(参考訳): MCM:マルチコンディションモーション合成フレームワーク
- Authors: Zeyu Ling, Bo Han, Yongkang Wongkan, Han Lin, Mohan Kankanhalli, Weidong Geng,
- Abstract要約: 条件付きヒトモーション合成(HMS)は、特定の条件に適合した人間のモーションシーケンスを生成することを目的としている。
本稿では,主枝と制御枝からなる二重分岐構造に基づくマルチ条件HMSフレームワーク MCMを提案する。
- 参考スコア(独自算出の注目度): 15.726843047963664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditional human motion synthesis (HMS) aims to generate human motion sequences that conform to specific conditions. Text and audio represent the two predominant modalities employed as HMS control conditions. While existing research has primarily focused on single conditions, the multi-condition human motion synthesis remains underexplored. In this study, we propose a multi-condition HMS framework, termed MCM, based on a dual-branch structure composed of a main branch and a control branch. This framework effectively extends the applicability of the diffusion model, which is initially predicated solely on textual conditions, to auditory conditions. This extension encompasses both music-to-dance and co-speech HMS while preserving the intrinsic quality of motion and the capabilities for semantic association inherent in the original model. Furthermore, we propose the implementation of a Transformer-based diffusion model, designated as MWNet, as the main branch. This model adeptly apprehends the spatial intricacies and inter-joint correlations inherent in motion sequences, facilitated by the integration of multi-wise self-attention modules. Extensive experiments show that our method achieves competitive results in single-condition and multi-condition HMS tasks.
- Abstract(参考訳): 条件付きヒトモーション合成(HMS)は、特定の条件に適合した人間のモーションシーケンスを生成することを目的としている。
テキストとオーディオは、HMS制御条件として使用される2つの主要なモードを表す。
既存の研究は主に単一条件に焦点が当てられているが、マルチ条件のヒトの運動合成はいまだ研究が進んでいない。
本研究では,主枝と制御枝からなる二重分岐構造に基づくマルチ条件HMSフレームワーク MCMを提案する。
この枠組みは,最初はテキストのみを前提とした拡散モデルの聴覚条件への適用性を効果的に拡張する。
この拡張は、本質的な動きの質と、原モデルに固有の意味的関連性を保ちながら、音楽間距離HMSと共音声HMSの両方を包含する。
さらに,MWNet をメインブランチとする Transformer ベースの拡散モデルの実装を提案する。
このモデルは、多次元自己注意モジュールの統合によって促進される、運動列に固有の空間的複雑さと接合間相関を十分に理解する。
実験の結果,本手法は単一条件と複数条件のHMSタスクにおいて競合する結果が得られることがわかった。
関連論文リスト
- Multi-Resolution Generative Modeling of Human Motion from Limited Data [3.5229503563299915]
限られたトレーニングシーケンスから人間の動きを合成することを学ぶ生成モデルを提案する。
このモデルは、骨格の畳み込み層とマルチスケールアーキテクチャを統合することで、人間の動きパターンを順応的にキャプチャする。
論文 参考訳(メタデータ) (2024-11-25T15:36:29Z) - GUESS:GradUally Enriching SyntheSis for Text-Driven Human Motion
Generation [23.435588151215594]
そこで本研究では,テキスト駆動型人体動作合成のためのケースケード拡散に基づく新しい生成フレームワークを提案する。
このフレームワークはGradUally Enriching SyntheSis(GUESS)という戦略を略語として利用している。
GUESSは、精度、現実性、多様性において、既存の最先端手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-01-04T08:48:21Z) - MCM: Multi-condition Motion Synthesis Framework for Multi-scenario [28.33039094451924]
多様な条件下で複数のシナリオにまたがる動き合成のための新しいパラダイムであるMCMを紹介する。
MCMフレームワークはDDPMのような拡散モデルと統合でき、マルチ条件情報入力に対応できる。
提案手法は,タスク固有の手法に匹敵する,テキスト・ツー・モーションと音楽・ダンスの両タスクの競合的な結果をもたらす。
論文 参考訳(メタデータ) (2023-09-06T14:17:49Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - A Novel Unified Conditional Score-based Generative Framework for
Multi-modal Medical Image Completion [54.512440195060584]
我々は、スコアベース生成モデル(SGM)を活用するために、統一多モードスコアベース生成モデル(UMM-CSGM)を提案する。
UMM-CSGMは、新しいマルチインマルチアウトコンディションスコアネットワーク(mm-CSN)を用いて、クロスモーダル条件分布の包括的集合を学習する。
BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な増強と不規則な領域をより確実に合成できることが示された。
論文 参考訳(メタデータ) (2022-07-07T16:57:21Z) - Optimal transport for causal discovery [13.38095181298957]
機能因果モデル(FCM)の新しい動的システムビューを提供する。
次に,両変数の場合の因果方向を同定する新しい枠組みを提案する。
提案手法は, 合成および因果探索ベンチマークを用いて, 最新の結果を示した。
論文 参考訳(メタデータ) (2022-01-23T21:09:45Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。