論文の概要: ZeroEGGS: Zero-shot Example-based Gesture Generation from Speech
- arxiv url: http://arxiv.org/abs/2209.07556v1
- Date: Thu, 15 Sep 2022 18:34:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 13:42:37.784722
- Title: ZeroEGGS: Zero-shot Example-based Gesture Generation from Speech
- Title(参考訳): ZeroEGGS: 音声からのゼロショット例に基づくジェスチャー生成
- Authors: Saeed Ghorbani, Ylva Ferstl, Daniel Holden, Nikolaus F. Troje,
Marc-Andr\'e Carbonneau
- Abstract要約: 我々は、ゼロショットスタイル制御を例に挙げ、音声駆動ジェスチャ生成のためのニューラルネットワークフレームワークZeroEGGSを提案する。
我々のモデルはスタイル埋め込みを学習するために変分フレームワークを使用し、遅延空間操作やスタイル埋め込みのブレンディングやスケーリングによるスタイルの変更を容易にする。
本研究では, 動作の自然性, 発話, スタイルの描写において, 従来の最先端技術よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 6.8527462303619195
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present ZeroEGGS, a neural network framework for speech-driven gesture
generation with zero-shot style control by example. This means style can be
controlled via only a short example motion clip, even for motion styles unseen
during training. Our model uses a Variational framework to learn a style
embedding, making it easy to modify style through latent space manipulation or
blending and scaling of style embeddings. The probabilistic nature of our
framework further enables the generation of a variety of outputs given the same
input, addressing the stochastic nature of gesture motion. In a series of
experiments, we first demonstrate the flexibility and generalizability of our
model to new speakers and styles. In a user study, we then show that our model
outperforms previous state-of-the-art techniques in naturalness of motion,
appropriateness for speech, and style portrayal. Finally, we release a
high-quality dataset of full-body gesture motion including fingers, with
speech, spanning across 19 different styles.
- Abstract(参考訳): 我々は,ゼロショットスタイル制御による音声駆動ジェスチャ生成のためのニューラルネットワークフレームワークZeroEGGSを提案する。
これは、トレーニング中に見えない動作スタイルであっても、短い例のモーションクリップだけでスタイルを制御できることを意味する。
我々のモデルはスタイル埋め込みを学習するために変分フレームワークを使用し、遅延空間操作やスタイル埋め込みのブレンディングやスケーリングによるスタイルの変更を容易にする。
このフレームワークの確率的性質により、ジェスチャー動作の確率的性質に対処して、同じ入力が与えられた様々な出力を生成することができる。
一連の実験で、我々はまずモデルの柔軟性と一般化性を新しい話者やスタイルに示す。
ユーザ調査の結果,本モデルは,運動の自然性,発話の適切性,表現様式において,これまでの最先端技術に匹敵することを示した。
最後に、19種類のスタイルにまたがる、指を含む全身のジェスチャー動作の高品質データセットをリリースする。
関連論文リスト
- SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model [66.34929233269409]
トーキングヘッドジェネレーション(THG)は、デジタル人間、映画制作、バーチャルリアリティーなど様々な分野の幅広い応用分野において重要な課題である。
本稿では,THGのスタイル関連情報をフル活用したSVP(Style-Enhanced Vivid Portrait)を提案する。
我々のモデルは、本質的なスタイルを柔軟に制御できる多様な、鮮明で高品質なビデオを生成し、既存の最先端の手法より優れています。
論文 参考訳(メタデータ) (2024-09-05T06:27:32Z) - SMooDi: Stylized Motion Diffusion Model [46.293854851116215]
本稿では、コンテンツテキストとスタイルシーケンスによって駆動されるスタイル化された動作を生成するための、SMooDiと呼ばれる新しいスティル化モーション拡散モデルを提案する。
提案手法は,従来のスタイル化動作生成手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-17T17:59:42Z) - Generative Human Motion Stylization in Latent Space [42.831468727082694]
単一動作(遅延)符号の多種多様なスタイリング結果を生成する新しい生成モデルを提案する。
推論では、ユーザーは参照動作やラベルからスタイルキューを使用して動きをスタイル化することができる。
提案手法は, 軽量な設計にもかかわらず, スタイル再現, コンテンツ保存, 一般化において, 最先端のスタイリングモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-01-24T14:53:13Z) - Freetalker: Controllable Speech and Text-Driven Gesture Generation Based
on Diffusion Models for Enhanced Speaker Naturalness [45.90256126021112]
我々は、自然発生(例えば、共音声ジェスチャー)と非自然発生(例えば、表彰台を動き回る)の両方を生成するための最初のフレームワークであるFreeTalkerを紹介する。
具体的には、音声によるジェスチャーとテキストによる動作の統一表現を用いた話者動作生成のための拡散モデルについて訓練する。
論文 参考訳(メタデータ) (2024-01-07T13:01:29Z) - Customizing Motion in Text-to-Video Diffusion Models [79.4121510826141]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。
入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文 参考訳(メタデータ) (2023-12-07T18:59:03Z) - GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents [3.229105662984031]
GestureDiffuCLIPは、フレキシブルなスタイル制御を備えたリアルでスタイル化された音声合成ジェスチャを合成するためのニューラルネットワークフレームワークである。
本システムは,高品質なジェスチャを生成するために潜時拡散モデルを学び,CLIP表現をジェネレータに注入する。
我々のシステムは、個々の身体部分のきめ細かいスタイル制御を可能にするよう拡張することができる。
論文 参考訳(メタデータ) (2023-03-26T03:35:46Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z) - Style Transfer for Co-Speech Gesture Animation: A Multi-Speaker
Conditional-Mixture Approach [46.50460811211031]
鍵となる課題は、ターゲット話者「B」のジェスチャースタイルで発話エージェント「A」のジェスチャーを生成するモデルを学習することである。
本研究では,複数の話者に対して1つのモデルを訓練し,各話者のジェスチャーに固有のスタイルの埋め込みを学習するMix-StAGEを提案する。
Mix-StAGEはスタイルとジェスチャーの内容が混在しているため、単にスタイル埋め込みを切り替えることで、同じ入力音声のジェスチャースタイルを変更することができる。
論文 参考訳(メタデータ) (2020-07-24T15:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。