論文の概要: A Comprehensive Review of Data-Driven Co-Speech Gesture Generation
- arxiv url: http://arxiv.org/abs/2301.05339v1
- Date: Fri, 13 Jan 2023 00:20:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 14:25:57.364806
- Title: A Comprehensive Review of Data-Driven Co-Speech Gesture Generation
- Title(参考訳): data-driven co-speech gesture generation の包括的レビュー
- Authors: Simbarashe Nyatsanga, Taras Kucherenko, Chaitanya Ahuja, Gustav Eje
Henter, Michael Neff
- Abstract要約: このような共同音声ジェスチャの自動生成は、コンピュータアニメーションにおける長年の問題である。
ジェスチャー生成は最近、人間のジェスチャー動作のデータセットがより大きくなったため、関心が高まっている。
本稿では,特に深層生成モデルに着目した共同音声ジェスチャ生成研究を要約する。
- 参考スコア(独自算出の注目度): 11.948557523215316
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Gestures that accompany speech are an essential part of natural and efficient
embodied human communication. The automatic generation of such co-speech
gestures is a long-standing problem in computer animation and is considered an
enabling technology in film, games, virtual social spaces, and for interaction
with social robots. The problem is made challenging by the idiosyncratic and
non-periodic nature of human co-speech gesture motion, and by the great
diversity of communicative functions that gestures encompass. Gesture
generation has seen surging interest recently, owing to the emergence of more
and larger datasets of human gesture motion, combined with strides in
deep-learning-based generative models, that benefit from the growing
availability of data. This review article summarizes co-speech gesture
generation research, with a particular focus on deep generative models. First,
we articulate the theory describing human gesticulation and how it complements
speech. Next, we briefly discuss rule-based and classical statistical gesture
synthesis, before delving into deep learning approaches. We employ the choice
of input modalities as an organizing principle, examining systems that generate
gestures from audio, text, and non-linguistic input. We also chronicle the
evolution of the related training data sets in terms of size, diversity, motion
quality, and collection method. Finally, we identify key research challenges in
gesture generation, including data availability and quality; producing
human-like motion; grounding the gesture in the co-occurring speech in
interaction with other speakers, and in the environment; performing gesture
evaluation; and integration of gesture synthesis into applications. We
highlight recent approaches to tackling the various key challenges, as well as
the limitations of these approaches, and point toward areas of future
development.
- Abstract(参考訳): 音声に付随するジェスチャーは、自然で効率的な人間のコミュニケーションの不可欠な部分である。
このような共同音声ジェスチャの自動生成は、コンピュータアニメーションにおける長年の問題であり、映画、ゲーム、仮想社会空間、社会ロボットとの対話において実現可能な技術であると考えられている。
この問題は、人間の共同音声ジェスチャー動作の慣用的・非周期的な性質と、ジェスチャーが包含するコミュニケーション機能の大きな多様性によって挑戦される。
ジェスチャ生成は、人間のジェスチャー動作のデータセットがより大きくなり、深層学習に基づく生成モデルの進歩と相まって、データの可用性の向上から恩恵を受けているため、近年、関心が高まっている。
本稿では,特に深部生成モデルに焦点をあてた協調ジェスチャ生成研究を要約する。
まず,人間のジェスチレーションに関する理論と,それが音声を補完する方法について述べる。
次に,ルールベースおよび古典的統計的ジェスチャ合成について概説し,深層学習のアプローチを検討する。
音声,テキスト,非言語的な入力からジェスチャを生成するシステムを調べるため,入力モダリティの選択を組織化原理として採用する。
また,関連するトレーニングデータセットの進化について,サイズ,多様性,動作品質,収集方法などの観点から分類した。
最後に, ジェスチャ生成における重要な課題として, データの可用性と品質, 人的動作の生成, 発話中のジェスチャーを他の話者や環境と相互作用させること, ジェスチャ評価を行うこと, ジェスチャ合成をアプリケーションに統合すること, などを挙げる。
我々は、様々な課題に取り組むための最近のアプローチと、これらのアプローチの限界、そして将来の開発分野に向けてのポイントを強調する。
関連論文リスト
- UnifiedGesture: A Unified Gesture Synthesis Model for Multiple Skeletons [16.52004713662265]
本稿では,異なる骨格を持つ複数のジェスチャーデータセットに基づいて学習した,拡散モデルに基づく音声駆動ジェスチャー合成手法を提案する。
次に、局所的注意と自己注意を用いた拡散モデルアーキテクチャに基づいて、音声とジェスチャーの相関関係を抽出する。
実験により、UnifiedGestureは、CCA、FGD、人間類似性の観点から、音声駆動ジェスチャ生成における最近のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-13T16:07:25Z) - Audio is all in one: speech-driven gesture synthetics using WavLM
pre-trained model [2.995608370922779]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。
生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文 参考訳(メタデータ) (2023-08-11T08:03:28Z) - Human Motion Generation: A Survey [67.38982546213371]
人間の動き生成は、自然の人間のポーズシーケンスを生成し、現実世界の応用に大きな可能性を示すことを目的としている。
この分野のほとんどの研究は、テキスト、オーディオ、シーンコンテキストなどの条件信号に基づいて人間の動きを生成することに焦点を当てている。
本稿では,人間の動作生成に関する総合的な文献レビューを紹介する。
論文 参考訳(メタデータ) (2023-07-20T14:15:20Z) - Co-Speech Gesture Synthesis using Discrete Gesture Token Learning [1.1694169299062596]
リアルな音声のジェスチャーを合成することは、信じられない動きを作り出す上で重要な問題であるが未解決の問題である。
共同音声ジェスチャーモデルを学ぶ上での課題の1つは、同一発話に対して複数の実行可能なジェスチャー動作が存在することである。
我々は、ジェスチャーセグメントを離散潜在符号としてモデル化することで、ジェスチャー合成におけるこの不確実性に対処する2段階モデルを提案した。
論文 参考訳(メタデータ) (2023-03-04T01:42:09Z) - Face-to-Face Contrastive Learning for Social Intelligence
Question-Answering [55.90243361923828]
マルチモーダル手法は多くのタスクで技術の状態を設定するが、複雑な対面会話のダイナミクスをモデル化することは困難である。
社会的相互作用をモデル化するグラフニューラルネットワークF2F-CLを提案する。
課題であるSocial-IQデータセットを実験的に評価し、最先端の結果を示す。
論文 参考訳(メタデータ) (2022-07-29T20:39:44Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Generating coherent spontaneous speech and gesture from text [21.90157862281996]
人体コミュニケーションは、言語情報(音声)と非言語情報(ジェスチャーや頭の動きなど)の両方を含む
機械学習の最近の進歩は、これらのデータの両方の合成バージョンを生成する技術を大幅に改善した。
私たちはこの2つの最先端技術を初めてコヒーレントな方法で組み合わせました。
論文 参考訳(メタデータ) (2021-01-14T16:02:21Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。