論文の概要: Co-Speech Gesture Synthesis using Discrete Gesture Token Learning
- arxiv url: http://arxiv.org/abs/2303.12822v1
- Date: Sat, 4 Mar 2023 01:42:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 02:42:57.733764
- Title: Co-Speech Gesture Synthesis using Discrete Gesture Token Learning
- Title(参考訳): 離散的ジェスチャー学習を用いた音声合成
- Authors: Shuhong Lu, Youngwoo Yoon and Andrew Feng
- Abstract要約: リアルな音声のジェスチャーを合成することは、信じられない動きを作り出す上で重要な問題であるが未解決の問題である。
共同音声ジェスチャーモデルを学ぶ上での課題の1つは、同一発話に対して複数の実行可能なジェスチャー動作が存在することである。
我々は、ジェスチャーセグメントを離散潜在符号としてモデル化することで、ジェスチャー合成におけるこの不確実性に対処する2段階モデルを提案した。
- 参考スコア(独自算出の注目度): 1.1694169299062596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing realistic co-speech gestures is an important and yet unsolved
problem for creating believable motions that can drive a humanoid robot to
interact and communicate with human users. Such capability will improve the
impressions of the robots by human users and will find applications in
education, training, and medical services. One challenge in learning the
co-speech gesture model is that there may be multiple viable gesture motions
for the same speech utterance. The deterministic regression methods can not
resolve the conflicting samples and may produce over-smoothed or damped
motions. We proposed a two-stage model to address this uncertainty issue in
gesture synthesis by modeling the gesture segments as discrete latent codes.
Our method utilizes RQ-VAE in the first stage to learn a discrete codebook
consisting of gesture tokens from training data. In the second stage, a
two-level autoregressive transformer model is used to learn the prior
distribution of residual codes conditioned on input speech context. Since the
inference is formulated as token sampling, multiple gesture sequences could be
generated given the same speech input using top-k sampling. The quantitative
results and the user study showed the proposed method outperforms the previous
methods and is able to generate realistic and diverse gesture motions.
- Abstract(参考訳): リアルな共同ジェスチャーの合成は、ヒューマノイドロボットが人間と対話し、コミュニケーションをとることができる、信じられないような動きを作る上で、重要かつ未解決な問題である。
こうした能力は、人間のユーザーによるロボットの印象を改善し、教育、訓練、医療サービスに応用される。
共同音声ジェスチャーモデルを学ぶ上での課題の1つは、同一発話に対して複数の実行可能なジェスチャー動作が存在することである。
決定論的回帰法は、衝突するサンプルを解くことができず、過剰な運動や減衰運動を生じさせる。
本研究では,ジェスチャセグメントを離散潜在符号としてモデル化することにより,ジェスチャ合成における不確実性問題に対処する2段階モデルを提案する。
本手法は,まずRQ-VAEを用いて,学習データからジェスチャートークンからなる個別のコードブックを学習する。
第2段階では、2段階の自己回帰変換モデルを用いて、入力音声コンテキストに条件付き残符号の事前分布を学習する。
推論はトークンサンプリングとして定式化されるため、トップkサンプリングと同じ音声入力で複数のジェスチャーシーケンスを生成することができる。
定量的な結果とユーザスタディにより,提案手法は従来の手法よりも優れ,現実的で多様なジェスチャー動作を生成できることを示した。
関連論文リスト
- Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model [2.827070255699381]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。
生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文 参考訳(メタデータ) (2023-08-11T08:03:28Z) - MPE4G: Multimodal Pretrained Encoder for Co-Speech Gesture Generation [18.349024345195318]
音声合成のためのマルチモーダル事前学習エンコーダを用いた新しいフレームワークを提案する。
提案手法は,全ての入力モダリティが与えられた時だけでなく,入力モダリティの欠如やノイズが生じた時にも,リアルなコ音声ジェスチャーを描画する。
論文 参考訳(メタデータ) (2023-05-25T05:42:58Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。