Fugu-MT 論文翻訳(概要): A Comprehensive Review of Data-Driven Co-Speech Gesture Generation

論文の概要: A Comprehensive Review of Data-Driven Co-Speech Gesture Generation

arxiv url: http://arxiv.org/abs/2301.05339v1
Date: Fri, 13 Jan 2023 00:20:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-16 14:25:57.364806
Title: A Comprehensive Review of Data-Driven Co-Speech Gesture Generation
Title（参考訳）: data-driven co-speech gesture generation の包括的レビュー
Authors: Simbarashe Nyatsanga, Taras Kucherenko, Chaitanya Ahuja, Gustav Eje Henter, Michael Neff
Abstract要約: このような共同音声ジェスチャの自動生成は、コンピュータアニメーションにおける長年の問題である。ジェスチャー生成は最近、人間のジェスチャー動作のデータセットがより大きくなったため、関心が高まっている。本稿では,特に深層生成モデルに着目した共同音声ジェスチャ生成研究を要約する。
参考スコア（独自算出の注目度）: 11.948557523215316
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Gestures that accompany speech are an essential part of natural and efficient embodied human communication. The automatic generation of such co-speech gestures is a long-standing problem in computer animation and is considered an enabling technology in film, games, virtual social spaces, and for interaction with social robots. The problem is made challenging by the idiosyncratic and non-periodic nature of human co-speech gesture motion, and by the great diversity of communicative functions that gestures encompass. Gesture generation has seen surging interest recently, owing to the emergence of more and larger datasets of human gesture motion, combined with strides in deep-learning-based generative models, that benefit from the growing availability of data. This review article summarizes co-speech gesture generation research, with a particular focus on deep generative models. First, we articulate the theory describing human gesticulation and how it complements speech. Next, we briefly discuss rule-based and classical statistical gesture synthesis, before delving into deep learning approaches. We employ the choice of input modalities as an organizing principle, examining systems that generate gestures from audio, text, and non-linguistic input. We also chronicle the evolution of the related training data sets in terms of size, diversity, motion quality, and collection method. Finally, we identify key research challenges in gesture generation, including data availability and quality; producing human-like motion; grounding the gesture in the co-occurring speech in interaction with other speakers, and in the environment; performing gesture evaluation; and integration of gesture synthesis into applications. We highlight recent approaches to tackling the various key challenges, as well as the limitations of these approaches, and point toward areas of future development.
Abstract（参考訳）: 音声に付随するジェスチャーは、自然で効率的な人間のコミュニケーションの不可欠な部分である。このような共同音声ジェスチャの自動生成は、コンピュータアニメーションにおける長年の問題であり、映画、ゲーム、仮想社会空間、社会ロボットとの対話において実現可能な技術であると考えられている。この問題は、人間の共同音声ジェスチャー動作の慣用的・非周期的な性質と、ジェスチャーが包含するコミュニケーション機能の大きな多様性によって挑戦される。ジェスチャ生成は、人間のジェスチャー動作のデータセットがより大きくなり、深層学習に基づく生成モデルの進歩と相まって、データの可用性の向上から恩恵を受けているため、近年、関心が高まっている。本稿では,特に深部生成モデルに焦点をあてた協調ジェスチャ生成研究を要約する。まず,人間のジェスチレーションに関する理論と,それが音声を補完する方法について述べる。次に,ルールベースおよび古典的統計的ジェスチャ合成について概説し,深層学習のアプローチを検討する。音声,テキスト,非言語的な入力からジェスチャを生成するシステムを調べるため,入力モダリティの選択を組織化原理として採用する。また,関連するトレーニングデータセットの進化について,サイズ,多様性,動作品質,収集方法などの観点から分類した。最後に, ジェスチャ生成における重要な課題として, データの可用性と品質, 人的動作の生成, 発話中のジェスチャーを他の話者や環境と相互作用させること, ジェスチャ評価を行うこと, ジェスチャ合成をアプリケーションに統合すること, などを挙げる。我々は、様々な課題に取り組むための最近のアプローチと、これらのアプローチの限界、そして将来の開発分野に向けてのポイントを強調する。

関連論文リスト

Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文参考訳（メタデータ） (2025-06-27T18:09:49Z)
Large Language Models for Virtual Human Gesture Selection [0.3749861135832072]
共同音声ジェスチャーは様々な意味を伝達し、対面する人間の相互作用において重要な役割を果たす。本研究では,大規模言語モデルのセマンティック機能を用いて,意味のある適切な音声合成手法を提案するジェスチャー選択手法を提案する。
論文参考訳（メタデータ） (2025-03-18T16:49:56Z)
HoloGest: Decoupled Diffusion and Motion Priors for Generating Holisticly Expressive Co-speech Gestures [8.50717565369252]
HoleGestは、高品質で表現力のある共同音声ジェスチャーの自動生成のための、新しいニューラルネットワークフレームワークである。本システムでは,音声依存度が低く,モーション依存度が高く,より安定した大域的動作と詳細な指の動きが可能である。我々のモデルは、没入感のあるユーザー体験を提供するために、真実に近い現実主義のレベルを達成する。
論文参考訳（メタデータ） (2025-03-17T14:42:31Z)
HOP: Heterogeneous Topology-based Multimodal Entanglement for Co-Speech Gesture Generation [42.30003982604611]
共同音声ジェスチャーは、人間のコミュニケーションにおける音声の明瞭さと歩みを高める重要な非言語的手がかりである。ジェスチャー動作, 音声リズム, テキストセマンティクスのヘテロジニアスな絡み合いを捕捉し, 共同音声ジェスチャ生成のためのHOPという新しい手法を提案する。 HOPは、より自然で表現力のある共同音声ジェスチャ生成を提供する最先端技術を実現している。
論文参考訳（メタデータ） (2025-03-03T04:47:39Z)
Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文参考訳（メタデータ） (2024-09-13T18:28:12Z)
Incorporating Spatial Awareness in Data-Driven Gesture Generation for Virtual Agents [17.299991009921307]
本稿では,仮想エージェントの非言語行動,特にジェスチャーに空間的コンテキストを組み込むことにより,人間とエージェントのコミュニケーションを向上させることに焦点を当てる。近年の音声合成の進歩は, 自然な動きを生み出すが, 動作範囲をヴォイドに限定するデータ駆動方式が主流となっている。本研究の目的は、シーン情報を音声によるジェスチャー合成に組み込むことにより、これらの手法を拡張することである。
論文参考訳（メタデータ） (2024-08-07T23:23:50Z)
Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文参考訳（メタデータ） (2024-06-26T04:53:11Z)
Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文参考訳（メタデータ） (2024-04-02T11:40:34Z)
ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文参考訳（メタデータ） (2024-03-26T17:59:52Z)
Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model [2.827070255699381]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文参考訳（メタデータ） (2023-08-11T08:03:28Z)
Human Motion Generation: A Survey [67.38982546213371]
人間の動き生成は、自然の人間のポーズシーケンスを生成し、現実世界の応用に大きな可能性を示すことを目的としている。この分野のほとんどの研究は、テキスト、オーディオ、シーンコンテキストなどの条件信号に基づいて人間の動きを生成することに焦点を当てている。本稿では,人間の動作生成に関する総合的な文献レビューを紹介する。
論文参考訳（メタデータ） (2023-07-20T14:15:20Z)
Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文参考訳（メタデータ） (2022-03-24T16:33:29Z)
Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文参考訳（メタデータ） (2021-12-27T07:18:50Z)
Speech Gesture Generation from the Trimodal Context of Text, Audio, and Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2020-09-04T11:42:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。