論文の概要: DiM-Gestor: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2
- arxiv url: http://arxiv.org/abs/2411.16729v1
- Date: Sat, 23 Nov 2024 08:02:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:30:35.032454
- Title: DiM-Gestor: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2
- Title(参考訳): DiM-Gestor:適応層正規化マンバ-2を用いた音声同時ジェスチャ生成
- Authors: Fan Zhang, Siyuan Zhao, Naye Ji, Zhaohan Wang, Jingmei Wu, Fuxing Gao, Zhenqing Ye, Leyao Yan, Lanxin Dai, Weidong Geng, Xin Lyu, Bozuo Zhao, Dingguo Yu, Hui Du, Bin Hu,
- Abstract要約: DiM-GestorはMamba-2アーキテクチャを利用したエンドツーエンドの生成モデルである。
Mamba-2上にファジィ特徴抽出器と音声・ジェスチャーマッピングモジュールを構築する。
提案手法は競合する結果をもたらし,メモリ使用量を約2.4倍に削減し,推論速度を2~4倍に向上させる。
- 参考スコア(独自算出の注目度): 6.6954598568836925
- License:
- Abstract: Speech-driven gesture generation using transformer-based generative models represents a rapidly advancing area within virtual human creation. However, existing models face significant challenges due to their quadratic time and space complexities, limiting scalability and efficiency. To address these limitations, we introduce DiM-Gestor, an innovative end-to-end generative model leveraging the Mamba-2 architecture. DiM-Gestor features a dual-component framework: (1) a fuzzy feature extractor and (2) a speech-to-gesture mapping module, both built on the Mamba-2. The fuzzy feature extractor, integrated with a Chinese Pre-trained Model and Mamba-2, autonomously extracts implicit, continuous speech features. These features are synthesized into a unified latent representation and then processed by the speech-to-gesture mapping module. This module employs an Adaptive Layer Normalization (AdaLN)-enhanced Mamba-2 mechanism to uniformly apply transformations across all sequence tokens. This enables precise modeling of the nuanced interplay between speech features and gesture dynamics. We utilize a diffusion model to train and infer diverse gesture outputs. Extensive subjective and objective evaluations conducted on the newly released Chinese Co-Speech Gestures dataset corroborate the efficacy of our proposed model. Compared with Transformer-based architecture, the assessments reveal that our approach delivers competitive results and significantly reduces memory usage, approximately 2.4 times, and enhances inference speeds by 2 to 4 times. Additionally, we released the CCG dataset, a Chinese Co-Speech Gestures dataset, comprising 15.97 hours (six styles across five scenarios) of 3D full-body skeleton gesture motion performed by professional Chinese TV broadcasters.
- Abstract(参考訳): トランスフォーマーに基づくジェスチャ生成モデルを用いた音声駆動ジェスチャ生成は,人間の仮想生成において急速に進展する領域を示す。
しかし、既存のモデルは2次時間と空間の複雑さのために、スケーラビリティと効率を制限しているため、重大な課題に直面している。
これらの制約に対処するために,Mamba-2アーキテクチャを利用した革新的なエンドツーエンド生成モデルであるDiM-Gestorを導入する。
DiM-Gestorは、(1)ファジィ特徴抽出器と(2)Mamba-2上に構築された音声とジェスチャーのマッピングモジュールである。
ファジィ特徴抽出器は、中国の事前訓練モデルとMamba-2と統合され、暗黙的かつ連続的な音声特徴を自律的に抽出する。
これらの特徴は、統一された潜在表現に合成され、その後、音声とジェスチャーのマッピングモジュールによって処理される。
このモジュールはアダプティブ・レイヤ正規化 (AdaLN) で強化されたMamba-2 機構を用いて、全てのシーケンストークンの変換を均一に適用する。
これにより、音声特徴とジェスチャー力学との間のニュアンスド・インタープレイの正確なモデリングが可能になる。
拡散モデルを用いて、多様なジェスチャー出力を訓練し、推定する。
提案モデルの有効性を裏付ける大局的な主観的・客観的評価を行った。
Transformerベースのアーキテクチャと比較すると,提案手法は競合的な結果をもたらし,約2.4倍のメモリ使用量を大幅に削減し,推論速度を2~4倍向上させる。
さらに,中国テレビ放送局が実施した3次元全身骨格動作の15.97時間(6つのシナリオにまたがる6つのスタイル)からなるCCGデータセットもリリースした。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - SPMamba: State-space model is all you need in speech separation [20.168153319805665]
CNNベースの音声分離モデルは、局所的な受容的場制限に直面し、長期間の依存関係を効果的にキャプチャできない。
本稿では,SPMambaという音声分離手法を提案する。
このモデルは、TF-GridNetアーキテクチャに基づいており、従来のBLSTMモジュールを双方向のMambaモジュールに置き換えている。
論文 参考訳(メタデータ) (2024-04-02T16:04:31Z) - Speech-driven Personalized Gesture Synthetics: Harnessing Automatic Fuzzy Feature Inference [5.711221299998126]
Persona-Gestorは、高度にパーソナライズされた3Dフルボディジェスチャーを生成するように設計された、新しいエンドツーエンド生成モデルである。
このモデルはファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)変換器拡散アーキテクチャを組み合わせたものである。
Persona-Gestorはシステムのユーザビリティと一般化機能を改善する。
論文 参考訳(メタデータ) (2024-03-16T04:40:10Z) - Cross-Language Speech Emotion Recognition Using Multimodal Dual
Attention Transformers [5.538923337818467]
最先端のシステムでは、言語間の設定でパフォーマンスが向上することができない。
言語間SERを改善するためのマルチモーダルデュアルアテンショントランスモデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T22:38:32Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Fusion-S2iGan: An Efficient and Effective Single-Stage Framework for
Speech-to-Image Generation [8.26410341981427]
音声から画像への変換の目的は、音声信号から直接写実的な画像を生成することである。
本稿では,Fusion-S2iGanと呼ばれる単一段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-17T11:12:07Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。