論文の概要: Enabling Synergistic Full-Body Control in Prompt-Based Co-Speech Motion Generation
- arxiv url: http://arxiv.org/abs/2410.00464v1
- Date: Tue, 1 Oct 2024 07:46:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 05:27:01.780662
- Title: Enabling Synergistic Full-Body Control in Prompt-Based Co-Speech Motion Generation
- Title(参考訳): Prompt-based Co-Speech Motion Generationにおける相乗的全音節制御の実現
- Authors: Bohong Chen, Yumeng Li, Yao-Xiang Ding, Tianjia Shao, Kun Zhou,
- Abstract要約: 共同音声による動作生成手法は、通常、音声内容のみによる上半身のジェスチャーに焦点をあてる。
既存の音声と動きのデータセットは、非常に限定されたフルボディの動きのみを含む。
市販のテキスト・トゥ・モーション・データセットを補助として利用するSynTalkerを提案する。
- 参考スコア(独自算出の注目度): 32.70952356211433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current co-speech motion generation approaches usually focus on upper body gestures following speech contents only, while lacking supporting the elaborate control of synergistic full-body motion based on text prompts, such as talking while walking. The major challenges lie in 1) the existing speech-to-motion datasets only involve highly limited full-body motions, making a wide range of common human activities out of training distribution; 2) these datasets also lack annotated user prompts. To address these challenges, we propose SynTalker, which utilizes the off-the-shelf text-to-motion dataset as an auxiliary for supplementing the missing full-body motion and prompts. The core technical contributions are two-fold. One is the multi-stage training process which obtains an aligned embedding space of motion, speech, and prompts despite the significant distributional mismatch in motion between speech-to-motion and text-to-motion datasets. Another is the diffusion-based conditional inference process, which utilizes the separate-then-combine strategy to realize fine-grained control of local body parts. Extensive experiments are conducted to verify that our approach supports precise and flexible control of synergistic full-body motion generation based on both speeches and user prompts, which is beyond the ability of existing approaches.
- Abstract(参考訳): 現在の共同音声動作生成手法は、通常、音声内容のみに従う上半身ジェスチャーに焦点をあてるが、歩きながら話すようなテキストプロンプトに基づく相乗的全体動作の精巧な制御を欠いている。
主な課題は
1)既存の音声と運動のデータセットは、非常に限られた全体動作のみを伴い、訓練分布から幅広い共通の人間の活動を生み出す。
2) これらのデータセットには注釈付きユーザプロンプトがない。
このような課題に対処するため,本研究では,全体動作の欠如を補う補助として,市販のテキスト・トゥ・モーション・データセットを利用するSynTalkerを提案する。
コアとなる技術貢献は2つです。
1つは、音声・音声・プロンプトの組込み空間を、音声・音声・プロンプト間の動きにおける大きな分布ミスマッチに拘わらず、整列した組込み空間を得る多段階学習プロセスである。
もう1つは拡散に基づく条件推論プロセスであり、これは局所的な部分のきめ細かい制御を実現するために、分離-then-combine戦略を利用する。
提案手法は,既存のアプローチの能力を超えた,音声とユーザプロンプトの両方に基づく,シナジスティックな全体動作生成の正確かつ柔軟な制御を支援することを検証するため,広範囲な実験を行った。
関連論文リスト
- KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。
伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。
動作を別個の体節群運動に分解する動き表現を提案する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - Autonomous Character-Scene Interaction Synthesis from Text Instruction [45.255215402142596]
そこで本研究では,単一テキスト命令と目標位置から直接,多段階のシーン認識インタラクション動作を合成するフレームワークを提案する。
提案手法では,次の動作セグメントを自動回帰拡散モデルで合成し,各動作ステージの遷移を予測する自律スケジューラを用いる。
本稿では,40種類の動作を含む120の屋内シーンにおいて,16時間の動作シーケンスからなる総合的な動きキャプチャーデータセットについて述べる。
論文 参考訳(メタデータ) (2024-10-04T06:58:45Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Towards Event Extraction from Speech with Contextual Clues [61.164413398231254]
本稿では,音声イベント抽出(SpeechEE)タスクを導入し,3つの合成トレーニングセットと1つの人為的テストセットを構築した。
テキストからのイベント抽出と比較して、SpeechEEは、主に連続的で単語境界を持たない複雑な音声信号のために、より大きな課題を提起する。
我々の手法はすべてのデータセットに大幅な改善をもたらし、最大10.7%のF1ゲインを達成する。
論文 参考訳(メタデータ) (2024-01-27T11:07:19Z) - Freetalker: Controllable Speech and Text-Driven Gesture Generation Based
on Diffusion Models for Enhanced Speaker Naturalness [45.90256126021112]
我々は、自然発生(例えば、共音声ジェスチャー)と非自然発生(例えば、表彰台を動き回る)の両方を生成するための最初のフレームワークであるFreeTalkerを紹介する。
具体的には、音声によるジェスチャーとテキストによる動作の統一表現を用いた話者動作生成のための拡散モデルについて訓練する。
論文 参考訳(メタデータ) (2024-01-07T13:01:29Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - The GENEA Challenge 2023: A large scale evaluation of gesture generation
models in monadic and dyadic settings [8.527975206444742]
本稿では、参加チームが音声によるジェスチャー生成システムを構築したGENEA Challenge 2023について報告する。
大規模ユーザ研究において,12件の提出と2件のベースラインと,保持型モーションキャプチャーデータを併用して評価した。
課題の提出者間の人間的な関係は広範囲に及んでおり、人間のモキャップに近いシステムもいくつかありました。
論文 参考訳(メタデータ) (2023-08-24T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。