論文の概要: Dynamic Motion Synthesis: Masked Audio-Text Conditioned Spatio-Temporal Transformers
- arxiv url: http://arxiv.org/abs/2409.01591v1
- Date: Tue, 3 Sep 2024 04:19:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 02:53:07.864808
- Title: Dynamic Motion Synthesis: Masked Audio-Text Conditioned Spatio-Temporal Transformers
- Title(参考訳): 動的運動合成:マスクオーディオテクスチャ付き時空間変圧器
- Authors: Sohan Anisetty, James Hays,
- Abstract要約: 本研究は,複数モーダルに条件付き全体動き列を同時に生成する新しい動き生成フレームワークを提案する。
空間的注意機構とトークン批評家を統合することで、生成した動きの一貫性と自然性を確保することができる。
- 参考スコア(独自算出の注目度): 13.665279127648658
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Our research presents a novel motion generation framework designed to produce whole-body motion sequences conditioned on multiple modalities simultaneously, specifically text and audio inputs. Leveraging Vector Quantized Variational Autoencoders (VQVAEs) for motion discretization and a bidirectional Masked Language Modeling (MLM) strategy for efficient token prediction, our approach achieves improved processing efficiency and coherence in the generated motions. By integrating spatial attention mechanisms and a token critic we ensure consistency and naturalness in the generated motions. This framework expands the possibilities of motion generation, addressing the limitations of existing approaches and opening avenues for multimodal motion synthesis.
- Abstract(参考訳): 本研究は,複数のモーダル性,特にテキストおよび音声入力を同時に条件付けした全身動作シーケンスを生成するために設計された,新しい動き生成フレームワークを提案する。
動作離散化のためのベクトル量子変分自動符号化(VQVAE)と、効率的なトークン予測のための双方向マスケッド言語モデリング(MLM)戦略を活用し、本手法は、生成した動きの処理効率とコヒーレンスを向上させる。
空間的注意機構とトークン批評家を統合することで、生成した動きの一貫性と自然性を確保することができる。
このフレームワークは運動生成の可能性を拡張し、既存のアプローチの限界に対処し、マルチモーダルモーション合成の道を開く。
関連論文リスト
- Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。
我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。
テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-07-11T12:33:56Z) - FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis [65.85686550683806]
そこで本稿では, 条件付き動作分布を用いて, 単独動作と多人数動作を統一する動き生成手法を提案する。
筆者らの枠組みに基づいて,現在ある一対一動作空間制御手法をシームレスに統合し,多対一動作の正確な制御を実現する。
論文 参考訳(メタデータ) (2024-05-24T17:57:57Z) - Motion Inversion for Video Customization [32.796303325195595]
映像生成モデルにおける動きのカスタマイズに関する新しいアプローチを提案する。
本手法では,映像から得られた時間的コヒーレントな1次元埋め込みの組であるモーション・エンベディングを導入する。
論文 参考訳(メタデータ) (2024-03-29T14:14:22Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - A Unified Framework for Multimodal, Multi-Part Human Motion Synthesis [17.45562922442149]
我々は,マルチモーダル(テキスト,音楽,音声)とマルチパート(手,胴体)のヒューマンモーション生成を融合する,密着的でスケーラブルなアプローチを導入する。
本手法は,制御信号のモダリティに基づく特殊コードブックから,多モード動作生成課題をトークン予測タスクとして表現する。
論文 参考訳(メタデータ) (2023-11-28T04:13:49Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - Diverse Dance Synthesis via Keyframes with Transformer Controllers [10.23813069057791]
本稿では,複数の制約に基づく動きに基づく動き生成ネットワークを提案し,学習知識を用いて多様なダンス合成を実現する。
我々のネットワークのバックボーンは2つの長い短期記憶(LSTM)ユニットからなる階層的RNNモジュールであり、最初のLSTMを用いて歴史的フレームの姿勢情報を潜時空間に埋め込む。
本フレームワークは2つのTransformerベースのコントローラを備えており,それぞれがルート軌道と速度係数の制約をモデル化するために使用される。
論文 参考訳(メタデータ) (2022-07-13T00:56:46Z) - Recurrent Transformer Variational Autoencoders for Multi-Action Motion
Synthesis [17.15415641710113]
任意の長さの多動作人間の動作列を合成する問題を考察する。
既存のアプローチでは、単一のアクションシナリオでモーションシーケンス生成をマスターしているが、多アクションおよび任意の長さのシーケンスに一般化できない。
本稿では,リカレントトランスの豊かさと条件付き変分オートエンコーダの生成豊かさを活用する,新しい効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-06-14T10:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。