論文の概要: Audio2Gestures: Generating Diverse Gestures from Audio
- arxiv url: http://arxiv.org/abs/2301.06690v1
- Date: Tue, 17 Jan 2023 04:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 14:57:26.645842
- Title: Audio2Gestures: Generating Diverse Gestures from Audio
- Title(参考訳): Audio2 Gestures: オーディオからさまざまなジェスチャーを生成する
- Authors: Jing Li, Di Kang, Wenjie Pei, Xuefei Zhe, Ying Zhang, Linchao Bao,
Zhenyu He
- Abstract要約: 本稿では、モーダルなラテント符号を共有コードとモーション固有コードに分割することで、ワン・ツー・マンの音声・モーションマッピングを明示的にモデル化することを提案する。
本手法は,従来の最先端手法よりも現実的で多様な動作を生成する。
- 参考スコア(独自算出の注目度): 28.026220492342382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People may perform diverse gestures affected by various mental and physical
factors when speaking the same sentences. This inherent one-to-many
relationship makes co-speech gesture generation from audio particularly
challenging. Conventional CNNs/RNNs assume one-to-one mapping, and thus tend to
predict the average of all possible target motions, easily resulting in
plain/boring motions during inference. So we propose to explicitly model the
one-to-many audio-to-motion mapping by splitting the cross-modal latent code
into shared code and motion-specific code. The shared code is expected to be
responsible for the motion component that is more correlated to the audio while
the motion-specific code is expected to capture diverse motion information that
is more independent of the audio. However, splitting the latent code into two
parts poses extra training difficulties. Several crucial training
losses/strategies, including relaxed motion loss, bicycle constraint, and
diversity loss, are designed to better train the VAE.
Experiments on both 3D and 2D motion datasets verify that our method
generates more realistic and diverse motions than previous state-of-the-art
methods, quantitatively and qualitatively. Besides, our formulation is
compatible with discrete cosine transformation (DCT) modeling and other popular
backbones (\textit{i.e.} RNN, Transformer). As for motion losses and
quantitative motion evaluation, we find structured losses/metrics
(\textit{e.g.} STFT) that consider temporal and/or spatial context complement
the most commonly used point-wise losses (\textit{e.g.} PCK), resulting in
better motion dynamics and more nuanced motion details. Finally, we demonstrate
that our method can be readily used to generate motion sequences with
user-specified motion clips on the timeline.
- Abstract(参考訳): 人々は同じ文章を話すとき、様々な精神的・身体的要因の影響を受ける多様なジェスチャーを行う。
この1対多の関係は、音声から音声の合成を特に困難にする。
従来のcnn/rnnは1対1のマッピングを仮定しており、可能なすべてのターゲット動作の平均を予測する傾向がある。
そこで我々は,クロスモーダル潜在コードを共有コードと動作固有コードに分割して,一対一のオーディオ-モーションマッピングを明示的にモデル化することを提案する。
共有コードは、音声とより相関の深い動き成分に責任を負うことが期待され、モーション固有コードは、オーディオとは独立な多様な動き情報をキャプチャすることが期待される。
しかし、潜在コードを2つの部分に分割することは、追加のトレーニング困難をもたらす。
リラックスした運動の損失、自転車の制約、多様性の喪失など、いくつかの重要な訓練損失/戦略は、VAEの訓練を改善するために設計されている。
3Dと2Dの両方のモーションデータセットの実験により、我々の手法は従来の最先端手法よりもリアルで多様な動きを定量的に、質的に生成することを確認した。
さらに、我々の定式化は離散コサイン変換(DCT)モデリングや他の一般的なバックボーン(\textit{i.e.} RNN, Transformer)と互換性がある。
運動損失と定量的運動評価に関しては、時間的および空間的文脈を考慮した構造的損失/メトリック(例えば、stft)が、最も一般的に使用される点的損失(例えば、pck)を補完し、運動ダイナミクスとより微妙な動き詳細をもたらす。
最後に,提案手法を用いて,ユーザが特定した動画クリップをタイムライン上で生成できることを示す。
関連論文リスト
- Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - SpeechAct: Towards Generating Whole-body Motion from Speech [33.10601371020488]
本稿では,音声から全身の動きを生成する問題に対処する。
本稿では,高精度かつ連続的な動き生成を実現するために,新しいハイブリッド・ポイント表現を提案する。
また,モデルがより独特な表現を生成することを奨励するコントラッシブ・モーション・ラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-29T07:57:30Z) - MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot
Action Recognition [50.345327516891615]
我々は、長短コントラスト目的と動き自動デコーダを含む2つの重要なコンポーネントを含む動き強化長短コントラスト学習法(MoLo)を開発した。
MoLoは、広範囲の時間的コンテキストとモーションキューを同時に学習して、包括的な数ショットマッチングを実現する。
論文 参考訳(メタデータ) (2023-04-03T13:09:39Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - Weakly-supervised Action Transition Learning for Stochastic Human Motion
Prediction [81.94175022575966]
動作駆動型人間の動作予測の課題について紹介する。
一連の動作ラベルと短い動作履歴から、複数の可算な将来の動作を予測することを目的としている。
論文 参考訳(メタデータ) (2022-05-31T08:38:07Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Audio2Gestures: Generating Diverse Gestures from Speech Audio with
Conditional Variational Autoencoders [29.658535633701035]
本稿では,一対多の音声-動画像マッピングを明示的にモデル化する条件付き変分オートエンコーダ(VAE)を提案する。
本手法は,最先端の手法よりも現実的で多様な動作を定量的に,質的に生成することを示す。
論文 参考訳(メタデータ) (2021-08-15T11:15:51Z) - Neural Monocular 3D Human Motion Capture with Physical Awareness [76.55971509794598]
物理的に可塑性なマーカーレス3次元モーションキャプチャのための新しいトレーニングシステムを提案する。
人間のモーションキャプチャのためのほとんどのニューラルな手法とは異なり、我々のアプローチは物理的および環境的な制約を認識している。
様々な場面でインタラクティブなフレームレートで、滑らかで物理的に原理化された3dモーションを生成する。
論文 参考訳(メタデータ) (2021-05-03T17:57:07Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。