論文の概要: MCM: Multi-condition Motion Synthesis Framework for Multi-scenario
- arxiv url: http://arxiv.org/abs/2309.03031v1
- Date: Wed, 6 Sep 2023 14:17:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 15:16:20.861056
- Title: MCM: Multi-condition Motion Synthesis Framework for Multi-scenario
- Title(参考訳): mcm:マルチスセナリオのための多条件モーション合成フレームワーク
- Authors: Zeyu Ling, Bo Han, Yongkang Wong, Mohan Kangkanhalli, Weidong Geng
- Abstract要約: 多様な条件下で複数のシナリオにまたがる動き合成のための新しいパラダイムであるMCMを紹介する。
MCMフレームワークはDDPMのような拡散モデルと統合でき、マルチ条件情報入力に対応できる。
提案手法は,タスク固有の手法に匹敵する,テキスト・ツー・モーションと音楽・ダンスの両タスクの競合的な結果をもたらす。
- 参考スコア(独自算出の注目度): 28.33039094451924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of the multi-condition human motion synthesis task is to
incorporate diverse conditional inputs, encompassing various forms like text,
music, speech, and more. This endows the task with the capability to adapt
across multiple scenarios, ranging from text-to-motion and music-to-dance,
among others. While existing research has primarily focused on single
conditions, the multi-condition human motion generation remains underexplored.
In this paper, we address these challenges by introducing MCM, a novel paradigm
for motion synthesis that spans multiple scenarios under diverse conditions.
The MCM framework is able to integrate with any DDPM-like diffusion model to
accommodate multi-conditional information input while preserving its generative
capabilities. Specifically, MCM employs two-branch architecture consisting of a
main branch and a control branch. The control branch shares the same structure
as the main branch and is initialized with the parameters of the main branch,
effectively maintaining the generation ability of the main branch and
supporting multi-condition input. We also introduce a Transformer-based
diffusion model MWNet (DDPM-like) as our main branch that can capture the
spatial complexity and inter-joint correlations in motion sequences through a
channel-dimension self-attention module. Quantitative comparisons demonstrate
that our approach achieves SoTA results in both text-to-motion and competitive
results in music-to-dance tasks, comparable to task-specific methods.
Furthermore, the qualitative evaluation shows that MCM not only streamlines the
adaptation of methodologies originally designed for text-to-motion tasks to
domains like music-to-dance and speech-to-gesture, eliminating the need for
extensive network re-configurations but also enables effective multi-condition
modal control, realizing "once trained is motion need".
- Abstract(参考訳): 多条件人間の動作合成タスクの目的は、テキスト、音楽、音声などの様々な形態を含む多様な条件入力を組み込むことである。
これは、テキストからモーション、音楽からダンスまで、複数のシナリオにまたがって適応する能力でタスクを内包する。
既存の研究は主に単一条件に焦点が当てられているが、マルチ条件の人間の運動生成はいまだに未調査である。
本稿では,様々な条件下で複数のシナリオにまたがる動き合成のパラダイムであるMCMを導入することで,これらの課題に対処する。
MCMフレームワークは、DDPMのような拡散モデルと統合でき、生成能力を保ちながらマルチ条件情報入力に対応できる。
具体的には、MCMはメインブランチとコントロールブランチで構成される2ブランチアーキテクチャを採用している。
制御ブランチは、メインブランチと同じ構造を共有し、メインブランチのパラメータと初期化され、メインブランチの生成能力を効果的に維持し、マルチ条件入力をサポートする。
また,トランスフォーマーを用いた拡散モデルMWNet (DDPM-like) をメインブランチとして導入し,チャネル次元自己アテンションモジュールを用いて移動列の空間的複雑性と接合間相関を捉える。
定量的比較により,本手法はタスク固有の手法に匹敵する,テキスト・ツー・モーションと音楽・ダンスの両タスクの競合的な結果をもたらすことが示された。
さらに, 定性評価により, MCMは, 本来テキスト・トゥ・モーション・タスク用に設計された方法論を, 音楽・ダンス・音声・ジェスチャーなどの領域に適応させるだけでなく, 広範囲なネットワーク再構成の必要性を排除し, 効果的なマルチコンディション・モーダル制御を実現し, 「運動の必要性」を実現する。
関連論文リスト
- MAGIC++: Efficient and Resilient Modality-Agnostic Semantic Segmentation via Hierarchical Modality Selection [20.584588303521496]
本稿では,効率的なマルチモーダル融合と階層的モダリティ選択のための2つの重要なプラグアンドプレイモジュールからなるMAGIC++フレームワークを紹介する。
本手法は実世界のベンチマークと合成ベンチマークの両方で最先端の性能を実現する。
本手法は, 先行技術よりも大きなマージンで優れる新奇なモダリティ非依存環境において, 優れた手法である。
論文 参考訳(メタデータ) (2024-12-22T06:12:03Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - MCM: Multi-condition Motion Synthesis Framework [15.726843047963664]
条件付きヒトモーション合成(HMS)は、特定の条件に適合した人間のモーションシーケンスを生成することを目的としている。
本稿では,主枝と制御枝からなる二重分岐構造に基づくマルチ条件HMSフレームワーク MCMを提案する。
論文 参考訳(メタデータ) (2024-04-19T13:40:25Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - A Unified Framework for Multimodal, Multi-Part Human Motion Synthesis [17.45562922442149]
我々は,マルチモーダル(テキスト,音楽,音声)とマルチパート(手,胴体)のヒューマンモーション生成を融合する,密着的でスケーラブルなアプローチを導入する。
本手法は,制御信号のモダリティに基づく特殊コードブックから,多モード動作生成課題をトークン予測タスクとして表現する。
論文 参考訳(メタデータ) (2023-11-28T04:13:49Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Revisiting Disentanglement and Fusion on Modality and Context in
Conversational Multimodal Emotion Recognition [81.2011058113579]
特徴の多様性と会話の文脈化は、特徴の絡み合いと融合の段階において、同時に適切にモデル化されるべきである。
マルチモーダル・コンテキスト統合のためのコントリビューション・アウェア・フュージョン・メカニズム(CFM)とコンテキスト・リフュージョン・メカニズム(CRM)を提案する。
我々のシステムは、新しい最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2023-08-08T18:11:27Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Multi-modal Fusion for Single-Stage Continuous Gesture Recognition [45.19890687786009]
テンポラル・マルチモーダル・フュージョン(TMMF)と呼ばれる単一段階連続ジェスチャー認識フレームワークを導入する。
TMMFは、単一のモデルでビデオ内の複数のジェスチャーを検出し、分類することができる。
このアプローチは、前処理のセグメンテーションステップを必要とせずに、ジェスチャーと非ジェスチャーの自然な遷移を学習する。
論文 参考訳(メタデータ) (2020-11-10T07:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。