論文の概要: Audio2Gestures: Generating Diverse Gestures from Speech Audio with
Conditional Variational Autoencoders
- arxiv url: http://arxiv.org/abs/2108.06720v1
- Date: Sun, 15 Aug 2021 11:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 03:17:51.516892
- Title: Audio2Gestures: Generating Diverse Gestures from Speech Audio with
Conditional Variational Autoencoders
- Title(参考訳): Audio2 Gestures:条件付き変分オートエンコーダを用いた音声音声からの異種ジェスチャー生成
- Authors: Jing Li, Di Kang, Wenjie Pei, Xuefei Zhe, Ying Zhang, Zhenyu He,
Linchao Bao
- Abstract要約: 本稿では,一対多の音声-動画像マッピングを明示的にモデル化する条件付き変分オートエンコーダ(VAE)を提案する。
本手法は,最先端の手法よりも現実的で多様な動作を定量的に,質的に生成することを示す。
- 参考スコア(独自算出の注目度): 29.658535633701035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating conversational gestures from speech audio is challenging due to
the inherent one-to-many mapping between audio and body motions. Conventional
CNNs/RNNs assume one-to-one mapping, and thus tend to predict the average of
all possible target motions, resulting in plain/boring motions during
inference. In order to overcome this problem, we propose a novel conditional
variational autoencoder (VAE) that explicitly models one-to-many
audio-to-motion mapping by splitting the cross-modal latent code into shared
code and motion-specific code. The shared code mainly models the strong
correlation between audio and motion (such as the synchronized audio and motion
beats), while the motion-specific code captures diverse motion information
independent of the audio. However, splitting the latent code into two parts
poses training difficulties for the VAE model. A mapping network facilitating
random sampling along with other techniques including relaxed motion loss,
bicycle constraint, and diversity loss are designed to better train the VAE.
Experiments on both 3D and 2D motion datasets verify that our method generates
more realistic and diverse motions than state-of-the-art methods,
quantitatively and qualitatively. Finally, we demonstrate that our method can
be readily used to generate motion sequences with user-specified motion clips
on the timeline. Code and more results are at
https://jingli513.github.io/audio2gestures.
- Abstract(参考訳): 音声と身体の動きを1対1でマッピングするため、音声から対話的なジェスチャーを生成することは困難である。
従来のcnn/rnnは1対1のマッピングを仮定しており、すべてのターゲット動作の平均を予測する傾向がある。
そこで本研究では,一対多の音声-動画像マッピングを共通コードと動作固有コードに分割することで,条件付き変分自動符号化(VAE)を提案する。
共有コードは、主にオーディオとモーション(同期オーディオやモーションビートなど)の強い相関関係をモデル化し、モーション固有のコードは、オーディオとは無関係に多様な動き情報をキャプチャする。
しかし、潜在コードを2つに分割すると、VAEモデルのトレーニングが困難になる。
ゆるやかな動きの損失、自転車の制約、多様性の喪失などの他の手法とともに、ランダムサンプリングを容易にするマッピングネットワークを設計し、VAEのトレーニングを改善する。
3Dと2Dの両方のモーションデータセットの実験により、我々の手法は最先端の手法よりもリアルで多様な動きを定量的に、質的に生成することを確認した。
最後に,提案手法を用いて,ユーザが特定した動画クリップをタイムライン上で生成できることを示す。
コードやその他の結果はhttps://jingli513.github.io/audio2gesturesにある。
関連論文リスト
- Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency [15.841490425454344]
本稿では,Loopy という,エンドツーエンドの音声のみの条件付きビデオ拡散モデルを提案する。
具体的には,ループ内時間モジュールとオーディオ・トゥ・ラテントモジュールを設計し,長期動作情報を活用する。
論文 参考訳(メタデータ) (2024-09-04T11:55:14Z) - SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos [77.55518265996312]
そこで本研究では,自己教師型埋め込み技術を用いて,自己中心型ビデオから行動音を学習する手法を提案する。
我々のマルチモーダルコントラッシブ・コンセンサス・コーディング(MC3)埋め込みは、すべてのモダリティ対が一致するとき、オーディオ、言語、視覚の関連を強化します。
論文 参考訳(メタデータ) (2024-04-08T05:19:28Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - SpeechAct: Towards Generating Whole-body Motion from Speech [33.10601371020488]
本稿では,音声から全身の動きを生成する問題に対処する。
本稿では,高精度かつ連続的な動き生成を実現するために,新しいハイブリッド・ポイント表現を提案する。
また,モデルがより独特な表現を生成することを奨励するコントラッシブ・モーション・ラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-29T07:57:30Z) - Audio2Gestures: Generating Diverse Gestures from Audio [28.026220492342382]
本稿では、モーダルなラテント符号を共有コードとモーション固有コードに分割することで、ワン・ツー・マンの音声・モーションマッピングを明示的にモデル化することを提案する。
本手法は,従来の最先端手法よりも現実的で多様な動作を生成する。
論文 参考訳(メタデータ) (2023-01-17T04:09:58Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。