論文の概要: Exploring speaker enrolment for few-shot personalisation in emotional
vocalisation prediction
- arxiv url: http://arxiv.org/abs/2206.06680v1
- Date: Tue, 14 Jun 2022 08:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 01:12:42.582928
- Title: Exploring speaker enrolment for few-shot personalisation in emotional
vocalisation prediction
- Title(参考訳): 感情発声予測における数発パーソナライズのための話者参加の検討
- Authors: Andreas Triantafyllopoulos, Meishu Song, Zijiang Yang, Xin Jing,
Bj\"orn W. Schuller
- Abstract要約: エンロラメントのエンコーダは ターゲットスピーカーの 2つの未ラベルのサンプルを使って 感情エンコーダの出力を調整する
2つのエンコーダは、補助的な感情や/または話者情報を忘れたり学習したりするためにガイドされる。
私たちのベストなアプローチは、ExVo Few-Shot開発セット上でのパーソナライズで$650のパーソナライズを実現しています。
- 参考スコア(独自算出の注目度): 9.011541286260444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we explore a novel few-shot personalisation architecture for
emotional vocalisation prediction. The core contribution is an `enrolment'
encoder which utilises two unlabelled samples of the target speaker to adjust
the output of the emotion encoder; the adjustment is based on dot-product
attention, thus effectively functioning as a form of `soft' feature selection.
The emotion and enrolment encoders are based on two standard audio
architectures: CNN14 and CNN10. The two encoders are further guided to forget
or learn auxiliary emotion and/or speaker information. Our best approach
achieves a CCC of $.650$ on the ExVo Few-Shot dev set, a $2.5\%$ increase over
our baseline CNN14 CCC of $.634$.
- Abstract(参考訳): 本研究では,感情的発声予測のための新しいマイナショットパーソナライズアーキテクチャについて検討する。
中心となる貢献は「エンローメント」エンコーダであり、ターゲットスピーカーの2つのラベルなしのサンプルを使用して感情エンコーダの出力を調整する。
感情とエンローメントのエンコーダは、CNN14とCNN10という2つの標準オーディオアーキテクチャに基づいている。
2つのエンコーダはさらに補助感情や話者情報を忘れたり学習したりする。
私たちのベストなアプローチは、ExVo Few-Shot開発セットのCCCが$650ドル、ベースラインのCNN14 CCCが$.634ドルであることです。
関連論文リスト
- Electroencephalogram-based Multi-class Decoding of Attended Speakers' Direction with Audio Spatial Spectrum [13.036563238499026]
聴取者の脳波(EEG)信号から出席者話者の指向性焦点を復号することは脳-コンピュータインターフェースの開発に不可欠である。
我々は、CNN、SM-CNN、EEG-Deformerモデルを用いて、聴取者の脳波信号から指向性焦点を補助的な空間スペクトルで復号する。
提案したSp-Aux-Deformerモデルでは、57.48%と61.83%の15クラスのデコード精度を、Left-one-subject-outおよびLeft-one-trial-outシナリオで達成している。
論文 参考訳(メタデータ) (2024-11-11T12:32:26Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。
本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文 参考訳(メタデータ) (2022-05-30T08:25:36Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Speech Emotion Recognition with Co-Attention based Multi-level Acoustic
Information [21.527784717450885]
音声感情認識は、人間の主観的感情を音声情報のみから理解することを目的としている。
マルチレベル音響情報を用いたエンドツーエンドの音声感情認識システムを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:17:28Z) - Decoupling Speaker-Independent Emotions for Voice Conversion Via
Source-Filter Networks [14.55242023708204]
本研究では,話者に依存しない感情特徴の適切なフィルタリングを実現するために,ソースフィルタに基づく感情VCモデル(SFEVC)を提案する。
我々のSFEVCモデルはマルチチャネルエンコーダと感情分離エンコーダと1つのデコーダで構成されている。
論文 参考訳(メタデータ) (2021-10-04T03:14:48Z) - VAW-GAN for Disentanglement and Recomposition of Emotional Elements in
Speech [91.92456020841438]
変分自己符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)による音声の感情要素のアンタングル化と再分解について検討する。
本稿では,2つのVAW-GANパイプライン,1つはスペクトル変換,もう1つは韻律変換を含む話者依存型ECVフレームワークを提案する。
提案手法の有効性を客観評価と主観評価の両方で検証した。
論文 参考訳(メタデータ) (2020-11-03T08:49:33Z) - Converting Anyone's Emotion: Towards Speaker-Independent Emotional Voice
Conversion [83.14445041096523]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、ある状態から別の状態へ音声の感情を変換することを目的としている。
パラレルデータを必要とせずに、誰の感情も変換できる話者非依存の感情音声変換フレームワークを提案する。
実験の結果,提案した話者非依存のフレームワークは,目に見える話者と目に見えない話者の双方に対して,競争的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-05-13T13:36:34Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。