論文の概要: The DiffuseStyleGesture+ entry to the GENEA Challenge 2023
- arxiv url: http://arxiv.org/abs/2308.13879v1
- Date: Sat, 26 Aug 2023 13:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 18:27:05.949545
- Title: The DiffuseStyleGesture+ entry to the GENEA Challenge 2023
- Title(参考訳): DiffuseStyleGesture + entry to the GENEA Challenge 2023
- Authors: Sicheng Yang, Haiwei Xue, Zhensong Zhang, Minglei Li, Zhiyong Wu,
Xiaofei Wu, Songcen Xu, Zonghong Dai
- Abstract要約: DiffuseStyleGesture+は,非言語行動の生成と評価のためのソリューションである。
提案モデルであるDiffuseStyleGesture+は拡散モデルを利用してジェスチャーを自動的に生成する。
オーディオ、テキスト、スピーカーID、シードジェスチャなど、さまざまなモダリティが組み込まれている。
- 参考スコア(独自算出の注目度): 16.297790031478634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce the DiffuseStyleGesture+, our solution for the
Generation and Evaluation of Non-verbal Behavior for Embodied Agents (GENEA)
Challenge 2023, which aims to foster the development of realistic, automated
systems for generating conversational gestures. Participants are provided with
a pre-processed dataset and their systems are evaluated through crowdsourced
scoring. Our proposed model, DiffuseStyleGesture+, leverages a diffusion model
to generate gestures automatically. It incorporates a variety of modalities,
including audio, text, speaker ID, and seed gestures. These diverse modalities
are mapped to a hidden space and processed by a modified diffusion model to
produce the corresponding gesture for a given speech input. Upon evaluation,
the DiffuseStyleGesture+ demonstrated performance on par with the top-tier
models in the challenge, showing no significant differences with those models
in human-likeness, appropriateness for the interlocutor, and achieving
competitive performance with the best model on appropriateness for agent
speech. This indicates that our model is competitive and effective in
generating realistic and appropriate gestures for given speech. The code,
pre-trained models, and demos are available at
https://github.com/YoungSeng/DiffuseStyleGesture/tree/DiffuseStyleGesturePlus/BEAT-TWH-main.
- Abstract(参考訳): 本稿では,対話型ジェスチャ生成のための現実的な自動システムの開発を促進することを目的とした,具体化エージェント(genea)チャレンジ2023における非言語行動の生成と評価のためのソリューションであるdusedomstylegesture+について紹介する。
参加者には事前処理されたデータセットが提供され、システムはクラウドソーシングによるスコア付けによって評価される。
提案モデルであるDiffuseStyleGesture+は拡散モデルを利用してジェスチャーを自動的に生成する。
オーディオ、テキスト、スピーカーID、シードジェスチャなど、さまざまなモダリティが組み込まれている。
これらの多様なモダリティは隠れた空間にマッピングされ、修正拡散モデルによって処理され、与えられた音声入力に対応するジェスチャーを生成する。
diffusionstylegesture+は,課題における上位層モデルと同等の性能を示し,人間の好み,対話者に対する適性,エージェント音声の適性に関する最良モデルとの競合性能などにおいて有意な差は認められなかった。
これは,本モデルが競争的であり,与えられた音声に対して現実的で適切なジェスチャーを生成するのに有効であることを示す。
コード、事前トレーニングされたモデル、デモはhttps://github.com/YoungSeng/DiffuseStyleGesture/tree/DiffuseStyleGesturePlus/BEAT-TWH-mainで公開されている。
関連論文リスト
- Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Aligning Large Language Models with Counterfactual DPO [1.8130068086063336]
本稿では,人的介入に頼らずにモデルスタイルを整列させる反事実的プロンプトの利用について検討する。
本研究では,この手法が望ましい行動を効果的に抑制し,望ましくない行動を緩和し,不適切な指示を無視するようモデルに促すことを実証する。
論文 参考訳(メタデータ) (2024-01-17T19:43:43Z) - DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven
Holistic 3D Expression and Gesture Generation [77.20028066642044]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。
DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-01-09T11:38:18Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Generative Pre-training for Speech with Flow Matching [85.11403412270099]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - UnifiedGesture: A Unified Gesture Synthesis Model for Multiple Skeletons [16.52004713662265]
本稿では,異なる骨格を持つ複数のジェスチャーデータセットに基づいて学習した,拡散モデルに基づく音声駆動ジェスチャー合成手法を提案する。
次に、局所的注意と自己注意を用いた拡散モデルアーキテクチャに基づいて、音声とジェスチャーの相関関係を抽出する。
実験により、UnifiedGestureは、CCA、FGD、人間類似性の観点から、音声駆動ジェスチャ生成における最近のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-13T16:07:25Z) - Diffusion-Based Co-Speech Gesture Generation Using Joint Text and Audio
Representation [18.04996323708772]
本稿では,2023年度のGenEA (Generation and Evaluation of Non-verbal Behaviour for Embodied Agents) Challengeのために開発されたシステムについて述べる。
本研究では,音声とジェスチャーの組込み学習を行うCSMPモジュールを提案する。
CSMPモジュールの出力は拡散に基づくジェスチャー合成モデルにおける条件付け信号として使用される。
論文 参考訳(メタデータ) (2023-09-11T13:51:06Z) - Self-Supervised Representation Learning for Speech Using Visual
Grounding and Masked Language Modeling [13.956691231452336]
FaST-VGSはトランスフォーマーをベースとしたモデルで、生音声波形と意味論的関連画像の関連付けを学習する。
FaST-VGS+は、マスク付き言語モデリングの目的を持つマルチタスク方式で学習される。
我々のモデルはABXタスク上で競合的に動作し、SyntacticおよびSemanticタスクにおける他のコンカレントサブミッションよりも優れており、Lexicalタスクにおける最高のシステムとほぼ一致していることを示す。
論文 参考訳(メタデータ) (2022-02-07T22:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。