論文の概要: The ReprGesture entry to the GENEA Challenge 2022
- arxiv url: http://arxiv.org/abs/2208.12133v1
- Date: Thu, 25 Aug 2022 14:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:53:28.524293
- Title: The ReprGesture entry to the GENEA Challenge 2022
- Title(参考訳): GENEA Challenge 2022に参加して
- Authors: Sicheng Yang, Zhiyong Wu, Minglei Li, Mengchen Zhao, Jiuxin Lin,
Liyang Chen, Weihong Bao
- Abstract要約: 本稿では,2022年における非言語的エージェント(GENEA)のための行動生成と評価のためのReprGestureの取り組みについて述べる。
GENEAチャレンジは、処理されたデータセットを提供し、さまざまなジェスチャー生成システムのパフォーマンスを比較するためにクラウドソースによる評価を行う。
- 参考スコア(独自算出の注目度): 8.081712389287903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the ReprGesture entry to the Generation and Evaluation
of Non-verbal Behaviour for Embodied Agents (GENEA) challenge 2022. The GENEA
challenge provides the processed datasets and performs crowdsourced evaluations
to compare the performance of different gesture generation systems. In this
paper, we explore an automatic gesture generation system based on multimodal
representation learning. We use WavLM features for audio, FastText features for
text and position and rotation matrix features for gesture. Each modality is
projected to two distinct subspaces: modality-invariant and modality-specific.
To learn inter-modality-invariant commonalities and capture the characters of
modality-specific representations, gradient reversal layer based adversarial
classifier and modality reconstruction decoders are used during training. The
gesture decoder generates proper gestures using all representations and
features related to the rhythm in the audio. Our code, pre-trained models and
demo are available at https://github.com/YoungSeng/ReprGesture.
- Abstract(参考訳): 本稿では,エンボディドエージェント(genea)チャレンジ2022における非言語行動の生成と評価への帰結について述べる。
GENEAチャレンジは、処理されたデータセットを提供し、さまざまなジェスチャー生成システムのパフォーマンスを比較するためにクラウドソースによる評価を行う。
本稿では,マルチモーダル表現学習に基づくジェスチャ自動生成システムについて検討する。
音声にはwavlm機能、テキストにはfasttext機能、ジェスチャーには position and rotation matrix機能を使用します。
各モダリティは2つの異なる部分空間(モダリティ不変性とモダリティ特異)に射影される。
モダリティ-不変共通性を学習し、モダリティ固有表現の文字をキャプチャするために、勾配反転層に基づく逆数分類器およびモダリティ再構成復号器を用いる。
ジェスチャーデコーダは、音声のリズムに関連するすべての表現と特徴を用いて適切なジェスチャーを生成する。
私たちのコード、事前トレーニングされたモデル、デモはhttps://github.com/youngseng/reprgesture.comで利用可能です。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling [57.08286593059137]
音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。
まずBEAT2(BEAT-SMPLX-FLAME)というメッシュレベルの音声合成データセットを紹介した。
実験により、EMAGEは最先端のパフォーマンスで総合的なジェスチャーを生成することが示された。
論文 参考訳(メタデータ) (2023-12-31T02:25:41Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - Transforming Visual Scene Graphs to Image Captions [69.13204024990672]
我々は、Scene Graphs (TSG) をより説明的なキャプションに変換することを提案する。
TSGでは、シーングラフの埋め込みのためのグラフニューラルネットワーク(GNN)の設計にマルチヘッドアテンション(MHA)を適用している。
TSGでは、各専門家はMHAに基づいてグラフ埋め込みを識別し、異なる種類の単語を生成する。
論文 参考訳(メタデータ) (2023-05-03T15:18:37Z) - Speech Representation Disentanglement with Adversarial Mutual
Information Learning for One-shot Voice Conversion [42.43123253495082]
単一の話者の発話しか参照できないワンショット音声変換(VC)がホットな研究トピックとなっている。
我々は、ピッチとコンテントエンコーダのランダムな再サンプリングを採用し、音声成分をアンタングルにするために、相互情報の差分対数比上限を用いる。
VCTKデータセットの実験では、自然性とインテリジェンスの観点から、ワンショットVCの最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-08-18T10:36:27Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。