Fugu-MT 論文翻訳(概要): Read it to me: An emotionally aware Speech Narration Application

論文の概要: Read it to me: An emotionally aware Speech Narration Application

arxiv url: http://arxiv.org/abs/2209.02785v1
Date: Tue, 6 Sep 2022 19:13:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-08 12:13:39.729252
Title: Read it to me: An emotionally aware Speech Narration Application
Title（参考訳）: read it to me: 感情的に認識された音声ナレーションアプリケーション
Authors: Rishibha Bansal
Abstract要約: 音声で感情的なスタイルの転送を試みます。悲しみの表現が類似していることから,「悲しい」音声は「幸せ」や「怒り」と同等に生成されることが判明した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work we try to perform emotional style transfer on audios. In particular, MelGAN-VC architecture is explored for various emotion-pair transfers. The generated audio is then classified using an LSTM-based emotion classifier for audio. We find that "sad" audio is generated well as compared to "happy" or "anger" as people have similar expressions of sadness.
Abstract（参考訳）: 本研究は,音声の感情的スタイル伝達を試みている。特に、MelGAN-VCアーキテクチャは様々な感情対転送のために検討されている。生成された音声は、LSTMベースの音声の感情分類器を用いて分類される。悲しみの表現が類似していることから,「悲しい」音声は「幸せ」や「怒り」と同等に生成されることがわかった。

関連論文リスト

DiEmo-TTS: Disentangled Emotion Representations via Self-Supervised Distillation for Cross-Speaker Emotion Transfer in Text-to-Speech [26.656512860918262]
音声合成における話者間感情伝達は、正確な感情モデリングのための話者非依存感情埋め込みの抽出に依存する。本研究では,感情情報の損失を最小限に抑え,話者のアイデンティティを保持する自己教師型蒸留法であるDiEmo-TTSを提案する。
論文参考訳（メタデータ） (2025-05-26T08:47:39Z)
Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
本稿では,高精度な感情表現による高忠実・音声駆動型映像像の合成システムを提案する。本研究では,無声音声入力に応答して自然なアイドル状態(非話者)ビデオを生成するポーズサンプリング手法を提案する。
論文参考訳（メタデータ） (2024-10-07T08:23:05Z)
Revisiting Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations [14.058054715262275]
音声や音楽からの感情認識は、その音響的重なり合いから類似性を共有しており、これらの領域間での知識の伝達に関心が持たれている。本稿では,感情音声と音楽の音響的類似性を再考し,自己監督学習(SSL)モデルの階層的振る舞いの分析から始める。最後に、Frechet音声距離を用いた感情音声と音楽の音響的類似性について検討し、音声と音楽のSSLモデルにおける感情バイアスの問題を明らかにする。
論文参考訳（メタデータ） (2024-09-26T14:49:09Z)
Zero Shot Audio to Audio Emotion Transfer With Speaker Disentanglement [41.837538440839815]
ゼロショット感情スタイル転送(ZEST)と呼ばれる効率的なアプローチを提案する。提案システムは,音声を意味トークン,話者表現,感情埋め込みに分解して構築する。提案したZESTモデルでは、ソースやターゲットオーディオから並列トレーニングデータやラベルを使わずに、ゼロショットの感情伝達能力を示す。
論文参考訳（メタデータ） (2024-01-09T12:10:04Z)
Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文参考訳（メタデータ） (2023-12-29T08:06:45Z)
In-the-wild Speech Emotion Conversion Using Disentangled Self-Supervised Representations and Neural Vocoder-based Resynthesis [15.16865739526702]
本稿では,自己教師ネットワークを用いて発話の語彙的,話者的,感情的な内容を切り離す手法を提案する。次に、HiFiGANボコーダを用いて、不整合表現をターゲット感情の音声信号に再合成する。その結果,提案手法は入力音声の感情内容に適度に適応し,対象感情に対して自然な音声を合成できることがわかった。
論文参考訳（メタデータ） (2023-06-02T21:02:51Z)
Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文参考訳（メタデータ） (2022-08-11T15:45:58Z)
Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。本稿では,感情の強さを明示的に表現し,制御することを目的とする。本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文参考訳（メタデータ） (2022-01-10T02:11:25Z)
Textless Speech Emotion Conversion using Decomposed and Discrete Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文参考訳（メタデータ） (2021-11-14T18:16:42Z)
Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2020-10-28T07:16:18Z)
Converting Anyone's Emotion: Towards Speaker-Independent Emotional Voice Conversion [83.14445041096523]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、ある状態から別の状態へ音声の感情を変換することを目的としている。パラレルデータを必要とせずに、誰の感情も変換できる話者非依存の感情音声変換フレームワークを提案する。実験の結果,提案した話者非依存のフレームワークは,目に見える話者と目に見えない話者の双方に対して,競争的な結果が得られることがわかった。
論文参考訳（メタデータ） (2020-05-13T13:36:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。