Fugu-MT 論文翻訳(概要): Speech-driven Personalized Gesture Synthetics: Harnessing Automatic Fuzzy Feature Inference

論文の概要: Speech-driven Personalized Gesture Synthetics: Harnessing Automatic Fuzzy Feature Inference

arxiv url: http://arxiv.org/abs/2403.10805v1
Date: Sat, 16 Mar 2024 04:40:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 21:45:00.574095
Title: Speech-driven Personalized Gesture Synthetics: Harnessing Automatic Fuzzy Feature Inference
Title（参考訳）: 音声駆動型パーソナライズドジェスチャ合成:ファジィ特徴推論のハーネス化
Authors: Fan Zhang, Zhaohan Wang, Xin Lyu, Siyuan Zhao, Mengjian Li, Weidong Geng, Naye Ji, Hui Du, Fuxing Gao, Hao Wu, Shunman Li,
Abstract要約: Persona-Gestorは、高度にパーソナライズされた3Dフルボディジェスチャーを生成するように設計された、新しいエンドツーエンド生成モデルである。このモデルはファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)変換器拡散アーキテクチャを組み合わせたものである。 Persona-Gestorはシステムのユーザビリティと一般化機能を改善する。
参考スコア（独自算出の注目度）: 5.711221299998126
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech-driven gesture generation is an emerging field within virtual human creation. However, a significant challenge lies in accurately determining and processing the multitude of input features (such as acoustic, semantic, emotional, personality, and even subtle unknown features). Traditional approaches, reliant on various explicit feature inputs and complex multimodal processing, constrain the expressiveness of resulting gestures and limit their applicability. To address these challenges, we present Persona-Gestor, a novel end-to-end generative model designed to generate highly personalized 3D full-body gestures solely relying on raw speech audio. The model combines a fuzzy feature extractor and a non-autoregressive Adaptive Layer Normalization (AdaLN) transformer diffusion architecture. The fuzzy feature extractor harnesses a fuzzy inference strategy that automatically infers implicit, continuous fuzzy features. These fuzzy features, represented as a unified latent feature, are fed into the AdaLN transformer. The AdaLN transformer introduces a conditional mechanism that applies a uniform function across all tokens, thereby effectively modeling the correlation between the fuzzy features and the gesture sequence. This module ensures a high level of gesture-speech synchronization while preserving naturalness. Finally, we employ the diffusion model to train and infer various gestures. Extensive subjective and objective evaluations on the Trinity, ZEGGS, and BEAT datasets confirm our model's superior performance to the current state-of-the-art approaches. Persona-Gestor improves the system's usability and generalization capabilities, setting a new benchmark in speech-driven gesture synthesis and broadening the horizon for virtual human technology. Supplementary videos and code can be accessed at https://zf223669.github.io/Diffmotion-v2-website/
Abstract（参考訳）: 音声駆動ジェスチャ生成は、仮想人間創造の新たな分野である。しかし、重要な課題は、多数の入力特徴(音響、意味、感情、性格、さらには微妙な未知の特徴など)を正確に決定し、処理することである。従来のアプローチは、様々な明示的な特徴入力と複雑なマルチモーダル処理に依存し、結果として生じるジェスチャーの表現性を制限し、適用性を制限する。このような課題に対処するために,生音声のみに依存した高度にパーソナライズされた3Dフルボディジェスチャーを生成するために設計された,新しいエンドツーエンド生成モデルであるPersona-Gestorを提案する。このモデルはファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)変換器拡散アーキテクチャを組み合わせたものである。ファジィ特徴抽出器は、暗黙的かつ連続的なファジィ特徴を自動的に推論するファジィ推論戦略を利用する。これらのファジィ特徴は統一潜在特徴として表現され、AdaLN変換器に入力される。 AdaLN変換器は、全てのトークンに一様関数を適用する条件機構を導入し、ファジィ特徴とジェスチャーシーケンスの相関を効果的にモデル化する。このモジュールは自然性を保ちながら高いレベルのジェスチャー音声同期を保証する。最後に、拡散モデルを用いて様々なジェスチャーを訓練し、推論する。 Trinity、ZEGGS、BEATデータセットに関する広範囲な主観的および客観的評価は、現在の最先端アプローチと比較して、我々のモデルの優れたパフォーマンスを確認します。 Persona-Gestorはシステムのユーザビリティと一般化能力を改善し、音声駆動ジェスチャ合成の新しいベンチマークを設定し、バーチャルヒューマンテクノロジーの地平を広げる。追加のビデオとコードはhttps://zf223669.github.io/Diffmotion-v2-website/でアクセスできる。

関連論文リスト

FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation [14.903360987684483]
高品質なダイナミック・メディカル・ビデオのためのフル次元能動的アテンション・トランスフォーマであるFEATを提案する。 FEAT-Sは、最先端モデルのEndoraのパラメータのわずか23%しか持たないが、同等またはそれ以上の性能を発揮することを示した。
論文参考訳（メタデータ） (2025-06-05T12:31:02Z)
AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [65.53676584955686]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。 AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-21T03:28:53Z)
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
VarGes: Improving Variation in Co-Speech 3D Gesture Generation via StyleCLIPS [4.996271098355553]
VarGesは、共同音声ジェスチャ生成を強化するために設計された、新しい変分駆動フレームワークである。提案手法は,ジェスチャの多様性と自然性の観点から,既存の手法よりも優れるベンチマークデータセットで検証されている。
論文参考訳（メタデータ） (2025-02-15T08:46:01Z)
DiM-Gestor: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 [6.6954598568836925]
DiM-GestorはMamba-2アーキテクチャを利用したエンドツーエンドの生成モデルである。 Mamba-2上にファジィ特徴抽出器と音声・ジェスチャーマッピングモジュールを構築する。提案手法は競合する結果をもたらし,メモリ使用量を約2.4倍に削減し,推論速度を2～4倍に向上させる。
論文参考訳（メタデータ） (2024-11-23T08:02:03Z)
Combo: Co-speech holistic 3D human motion generation and efficient customizable adaptation in harmony [55.26315526382004]
共同音声合成のための新しいフレームワークComboを提案する。特に、興味の生成モデルにおけるマルチインプット・マルチプル・アウトプットの性質として、基本的な課題があげられる。コンボは高品質な動きを生み出すのに非常に効果的であるが、アイデンティティや感情の伝達にも効果的である。
論文参考訳（メタデータ） (2024-08-18T07:48:49Z)
DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。 Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文参考訳（メタデータ） (2024-08-01T08:22:47Z)
Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。 Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文参考訳（メタデータ） (2024-06-27T02:32:46Z)
DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation [72.85685916829321]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。 DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文参考訳（メタデータ） (2024-01-09T11:38:18Z)
FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文参考訳（メタデータ） (2023-12-13T19:01:07Z)
BodyFormer: Semantics-guided 3D Body Gesture Synthesis with Transformer [42.87095473590205]
音声からの3次元身体ジェスチャー自動合成のための新しいフレームワークを提案する。本システムは,Trinity 音声位置推定データセットあるいは Talking With Hands 16.2M データセットを用いて学習する。その結果,本システムは既存の最先端手法と比較して,より現実的で,適切で,多様な身体ジェスチャーを生成できることが示唆された。
論文参考訳（メタデータ） (2023-09-07T01:11:11Z)
Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model [2.827070255699381]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文参考訳（メタデータ） (2023-08-11T08:03:28Z)
Stochastic Layers in Vision Transformers [85.38733795180497]
視覚変換器の完全な層を導入し,性能を著しく低下させることなく実現した。この追加により、視覚機能の堅牢性が向上し、プライバシーが強化される。私たちの機能は3つの異なるアプリケーション、すなわち、敵の堅牢性、ネットワークキャリブレーション、機能プライバシに使用しています。
論文参考訳（メタデータ） (2021-12-30T16:07:59Z)
Improve Variational Autoencoder for Text Generationwith Discrete Latent Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。 VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文参考訳（メタデータ） (2020-04-22T14:41:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。