論文の概要: BodyFormer: Semantics-guided 3D Body Gesture Synthesis with Transformer
- arxiv url: http://arxiv.org/abs/2310.06851v1
- Date: Thu, 7 Sep 2023 01:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-15 14:15:56.379767
- Title: BodyFormer: Semantics-guided 3D Body Gesture Synthesis with Transformer
- Title(参考訳): BodyFormer:Semantics-Guided 3D Body Gesture Synthesis with Transformer
- Authors: Kunkun Pang, Dafei Qin, Yingruo Fan, Julian Habekost, Takaaki
Shiratori, Junichi Yamagishi, Taku Komura
- Abstract要約: 音声からの3次元身体ジェスチャー自動合成のための新しいフレームワークを提案する。
本システムは,Trinity 音声位置推定データセットあるいは Talking With Hands 16.2M データセットを用いて学習する。
その結果,本システムは既存の最先端手法と比較して,より現実的で,適切で,多様な身体ジェスチャーを生成できることが示唆された。
- 参考スコア(独自算出の注目度): 42.87095473590205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic gesture synthesis from speech is a topic that has attracted
researchers for applications in remote communication, video games and
Metaverse. Learning the mapping between speech and 3D full-body gestures is
difficult due to the stochastic nature of the problem and the lack of a rich
cross-modal dataset that is needed for training. In this paper, we propose a
novel transformer-based framework for automatic 3D body gesture synthesis from
speech. To learn the stochastic nature of the body gesture during speech, we
propose a variational transformer to effectively model a probabilistic
distribution over gestures, which can produce diverse gestures during
inference. Furthermore, we introduce a mode positional embedding layer to
capture the different motion speeds in different speaking modes. To cope with
the scarcity of data, we design an intra-modal pre-training scheme that can
learn the complex mapping between the speech and the 3D gesture from a limited
amount of data. Our system is trained with either the Trinity speech-gesture
dataset or the Talking With Hands 16.2M dataset. The results show that our
system can produce more realistic, appropriate, and diverse body gestures
compared to existing state-of-the-art approaches.
- Abstract(参考訳): 音声からの自動ジェスチャー合成は、遠隔コミュニケーション、ビデオゲーム、メタバースの応用に研究者を惹きつけるトピックである。
言語と3次元の身振りのマッピングを学習することは、問題の確率的な性質と訓練に必要なリッチなクロスモーダルデータセットが欠如しているため困難である。
本稿では,音声からの3次元身体ジェスチャー自動合成のためのトランスフォーマーベースのフレームワークを提案する。
音声中の身体的ジェスチャーの確率的性質を学習するために,ジェスチャ上の確率的分布を効果的にモデル化する変動トランスフォーマを提案する。
さらに,異なる発話モードにおける異なる動き速度をキャプチャするモード位置埋め込み層を提案する。
データの不足に対処するために,限られたデータ量から音声と3次元ジェスチャーの複雑なマッピングを学習できるモード内事前学習スキームを設計する。
本システムは,trinity speech-gesture dataset または talking with hands 16.2m dataset を用いて学習する。
その結果,本システムは既存の最先端手法と比較して,より現実的で適切で多様な身体ジェスチャーを実現できることが示された。
関連論文リスト
- CoCoGesture: Toward Coherent Co-speech 3D Gesture Generation in the Wild [44.401536230814465]
CoCoGestureは、目に見えない人間の音声プロンプトから鮮明で多様なジェスチャー合成を可能にする新しいフレームワークである。
私たちの重要な洞察は、カスタム設計のトレーニングパラダイムに基づいています。
提案するCoCoGesture は,ゼロショット音声・ジェスチャー生成における最先端手法よりも優れる。
論文 参考訳(メタデータ) (2024-05-27T06:47:14Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Probabilistic Speech-Driven 3D Facial Motion Synthesis: New Benchmarks,
Methods, and Applications [20.842799581850617]
音声信号から3次元顔形状を推定する作業について検討する。
既存の作業は主に決定論的であり、限られた話者を持つ小さなデータセット上で、音声信号から3D顔メッシュへの1対1のマッピングを学ぶことに集中している。
論文 参考訳(メタデータ) (2023-11-30T01:14:43Z) - Co-Speech Gesture Synthesis using Discrete Gesture Token Learning [1.1694169299062596]
リアルな音声のジェスチャーを合成することは、信じられない動きを作り出す上で重要な問題であるが未解決の問題である。
共同音声ジェスチャーモデルを学ぶ上での課題の1つは、同一発話に対して複数の実行可能なジェスチャー動作が存在することである。
我々は、ジェスチャーセグメントを離散潜在符号としてモデル化することで、ジェスチャー合成におけるこの不確実性に対処する2段階モデルを提案した。
論文 参考訳(メタデータ) (2023-03-04T01:42:09Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Body2Hands: Learning to Infer 3D Hands from Conversational Gesture Body
Dynamics [87.17505994436308]
身体の動きと手の動きは、非言語的コミュニケーション設定において強く相関しているという知見に基づいて構築する。
身体の動きのみを入力した場合の3次元手形状の予測タスクとして,この先行学習を定式化する。
本モデルでは,3次元手の動きのみを入力として,手の動きを説得力のある3次元手の動きを生成する。
論文 参考訳(メタデータ) (2020-07-23T22:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。