論文の概要: Moving fast and slow: Analysis of representations and post-processing in
speech-driven automatic gesture generation
- arxiv url: http://arxiv.org/abs/2007.09170v3
- Date: Thu, 28 Jan 2021 12:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 22:57:17.145799
- Title: Moving fast and slow: Analysis of representations and post-processing in
speech-driven automatic gesture generation
- Title(参考訳): 動き速度と動き速度:音声駆動型自動ジェスチャー生成における表現と後処理の分析
- Authors: Taras Kucherenko, Dai Hasegawa, Naoshi Kaneko, Gustav Eje Henter,
Hedvig Kjellstr\"om
- Abstract要約: 我々は,表現学習を取り入れた音声によるジェスチャー生成のための,近年のディープラーニングに基づくデータ駆動手法を拡張した。
我々のモデルは音声を入力とし、3次元座標列の形式でジェスチャーを出力として生成する。
自動ジェスチャー生成法の設計において,動作表現と後処理の両方を考慮に入れることが重要であると結論付けた。
- 参考スコア(独自算出の注目度): 7.6857153840014165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel framework for speech-driven gesture production,
applicable to virtual agents to enhance human-computer interaction.
Specifically, we extend recent deep-learning-based, data-driven methods for
speech-driven gesture generation by incorporating representation learning. Our
model takes speech as input and produces gestures as output, in the form of a
sequence of 3D coordinates. We provide an analysis of different representations
for the input (speech) and the output (motion) of the network by both objective
and subjective evaluations. We also analyse the importance of smoothing of the
produced motion. Our results indicated that the proposed method improved on our
baseline in terms of objective measures. For example, it better captured the
motion dynamics and better matched the motion-speed distribution. Moreover, we
performed user studies on two different datasets. The studies confirmed that
our proposed method is perceived as more natural than the baseline, although
the difference in the studies was eliminated by appropriate post-processing:
hip-centering and smoothing. We conclude that it is important to take both
motion representation and post-processing into account when designing an
automatic gesture-production method.
- Abstract(参考訳): 本稿では,仮想エージェントに適用可能な,音声によるジェスチャー生成のための新しいフレームワークを提案する。
具体的には,表現学習を組み込んだ音声駆動ジェスチャ生成のための,近年のディープラーニングに基づくデータ駆動手法を拡張する。
我々のモデルは音声を入力とし、3次元座標列の形式でジェスチャーを出力として生成する。
客観的評価と主観評価の両方により,ネットワークの入力(音声)と出力(動き)の異なる表現の分析を行う。
また,生成した動きの平滑化の重要性も分析した。
その結果,提案手法は客観的な尺度でベースラインに改善が見られた。
例えば、動きのダイナミクスをよりよく捉え、動き速度分布に合致させる。
さらに,2つの異なるデータセットのユーザスタディを行った。
本研究は,提案手法がベースラインよりも自然であると考えられたが,適切な後処理によって研究の相違が排除された。
自動ジェスチャー生成法の設計においては,動作表現と後処理の両方を考慮することが重要である。
関連論文リスト
- DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation [72.85685916829321]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。
DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-01-09T11:38:18Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - SpeechAct: Towards Generating Whole-body Motion from Speech [33.10601371020488]
本稿では,音声から全身の動きを生成する問題に対処する。
本稿では,高精度かつ連続的な動き生成を実現するために,新しいハイブリッド・ポイント表現を提案する。
また,モデルがより独特な表現を生成することを奨励するコントラッシブ・モーション・ラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-29T07:57:30Z) - AQ-GT: a Temporally Aligned and Quantized GRU-Transformer for Co-Speech
Gesture Synthesis [0.0]
本稿では,量子化パイプラインを用いた生成逆数ネットワークを用いて,事前学習した部分的ジェスチャー列に対するアプローチを提案する。
空間表現を直接ベクトル表現にマッピングするのではなく、潜在空間表現のマッピングを学習することにより、非常に現実的で表現力のあるジェスチャーの生成を促進する。
論文 参考訳(メタデータ) (2023-05-02T07:59:38Z) - ReMoDiffuse: Retrieval-Augmented Motion Diffusion Model [33.64263969970544]
3Dのモーション生成はクリエイティブ産業にとって不可欠だ。
近年の進歩は、テキスト駆動モーション生成のためのドメイン知識を持つ生成モデルに依存している。
本稿では拡散モデルに基づく動き生成フレームワークReMoDiffuseを提案する。
論文 参考訳(メタデータ) (2023-04-03T16:29:00Z) - Co-Speech Gesture Synthesis using Discrete Gesture Token Learning [1.1694169299062596]
リアルな音声のジェスチャーを合成することは、信じられない動きを作り出す上で重要な問題であるが未解決の問題である。
共同音声ジェスチャーモデルを学ぶ上での課題の1つは、同一発話に対して複数の実行可能なジェスチャー動作が存在することである。
我々は、ジェスチャーセグメントを離散潜在符号としてモデル化することで、ジェスチャー合成におけるこの不確実性に対処する2段階モデルを提案した。
論文 参考訳(メタデータ) (2023-03-04T01:42:09Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。
提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。
大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文 参考訳(メタデータ) (2020-08-24T02:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。