論文の概要: The DiffuseStyleGesture+ entry to the GENEA Challenge 2023
- arxiv url: http://arxiv.org/abs/2308.13879v1
- Date: Sat, 26 Aug 2023 13:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 18:27:05.949545
- Title: The DiffuseStyleGesture+ entry to the GENEA Challenge 2023
- Title(参考訳): DiffuseStyleGesture + entry to the GENEA Challenge 2023
- Authors: Sicheng Yang, Haiwei Xue, Zhensong Zhang, Minglei Li, Zhiyong Wu,
Xiaofei Wu, Songcen Xu, Zonghong Dai
- Abstract要約: DiffuseStyleGesture+は,非言語行動の生成と評価のためのソリューションである。
提案モデルであるDiffuseStyleGesture+は拡散モデルを利用してジェスチャーを自動的に生成する。
オーディオ、テキスト、スピーカーID、シードジェスチャなど、さまざまなモダリティが組み込まれている。
- 参考スコア(独自算出の注目度): 16.297790031478634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce the DiffuseStyleGesture+, our solution for the
Generation and Evaluation of Non-verbal Behavior for Embodied Agents (GENEA)
Challenge 2023, which aims to foster the development of realistic, automated
systems for generating conversational gestures. Participants are provided with
a pre-processed dataset and their systems are evaluated through crowdsourced
scoring. Our proposed model, DiffuseStyleGesture+, leverages a diffusion model
to generate gestures automatically. It incorporates a variety of modalities,
including audio, text, speaker ID, and seed gestures. These diverse modalities
are mapped to a hidden space and processed by a modified diffusion model to
produce the corresponding gesture for a given speech input. Upon evaluation,
the DiffuseStyleGesture+ demonstrated performance on par with the top-tier
models in the challenge, showing no significant differences with those models
in human-likeness, appropriateness for the interlocutor, and achieving
competitive performance with the best model on appropriateness for agent
speech. This indicates that our model is competitive and effective in
generating realistic and appropriate gestures for given speech. The code,
pre-trained models, and demos are available at
https://github.com/YoungSeng/DiffuseStyleGesture/tree/DiffuseStyleGesturePlus/BEAT-TWH-main.
- Abstract(参考訳): 本稿では,対話型ジェスチャ生成のための現実的な自動システムの開発を促進することを目的とした,具体化エージェント(genea)チャレンジ2023における非言語行動の生成と評価のためのソリューションであるdusedomstylegesture+について紹介する。
参加者には事前処理されたデータセットが提供され、システムはクラウドソーシングによるスコア付けによって評価される。
提案モデルであるDiffuseStyleGesture+は拡散モデルを利用してジェスチャーを自動的に生成する。
オーディオ、テキスト、スピーカーID、シードジェスチャなど、さまざまなモダリティが組み込まれている。
これらの多様なモダリティは隠れた空間にマッピングされ、修正拡散モデルによって処理され、与えられた音声入力に対応するジェスチャーを生成する。
diffusionstylegesture+は,課題における上位層モデルと同等の性能を示し,人間の好み,対話者に対する適性,エージェント音声の適性に関する最良モデルとの競合性能などにおいて有意な差は認められなかった。
これは,本モデルが競争的であり,与えられた音声に対して現実的で適切なジェスチャーを生成するのに有効であることを示す。
コード、事前トレーニングされたモデル、デモはhttps://github.com/YoungSeng/DiffuseStyleGesture/tree/DiffuseStyleGesturePlus/BEAT-TWH-mainで公開されている。
関連論文リスト
- Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset [0.39462888523270856]
VAGUEは3.9Kの間接的人間発話と対応するシーンを組み合わせたマルチモーダル・ベンチマークである。
我々の研究は、モデルが間接的なコミュニケーションを理解する能力について深く掘り下げ、より洗練され人間的な対話が可能なモデルの開発に貢献することを目的としています。
論文 参考訳(メタデータ) (2024-11-21T14:01:42Z) - Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。
モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。
その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文 参考訳(メタデータ) (2024-10-17T17:59:59Z) - Speech-driven Personalized Gesture Synthetics: Harnessing Automatic Fuzzy Feature Inference [5.711221299998126]
Persona-Gestorは、高度にパーソナライズされた3Dフルボディジェスチャーを生成するように設計された、新しいエンドツーエンド生成モデルである。
このモデルはファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)変換器拡散アーキテクチャを組み合わせたものである。
Persona-Gestorはシステムのユーザビリティと一般化機能を改善する。
論文 参考訳(メタデータ) (2024-03-16T04:40:10Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation [72.85685916829321]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。
DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-01-09T11:38:18Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - Diffusion-Based Co-Speech Gesture Generation Using Joint Text and Audio
Representation [18.04996323708772]
本稿では,2023年度のGenEA (Generation and Evaluation of Non-verbal Behaviour for Embodied Agents) Challengeのために開発されたシステムについて述べる。
本研究では,音声とジェスチャーの組込み学習を行うCSMPモジュールを提案する。
CSMPモジュールの出力は拡散に基づくジェスチャー合成モデルにおける条件付け信号として使用される。
論文 参考訳(メタデータ) (2023-09-11T13:51:06Z) - Self-Supervised Representation Learning for Speech Using Visual
Grounding and Masked Language Modeling [13.956691231452336]
FaST-VGSはトランスフォーマーをベースとしたモデルで、生音声波形と意味論的関連画像の関連付けを学習する。
FaST-VGS+は、マスク付き言語モデリングの目的を持つマルチタスク方式で学習される。
我々のモデルはABXタスク上で競合的に動作し、SyntacticおよびSemanticタスクにおける他のコンカレントサブミッションよりも優れており、Lexicalタスクにおける最高のシステムとほぼ一致していることを示す。
論文 参考訳(メタデータ) (2022-02-07T22:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。