論文の概要: MetaSpeech: Speech Effects Switch Along with Environment for Metaverse
- arxiv url: http://arxiv.org/abs/2210.13811v1
- Date: Tue, 25 Oct 2022 07:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 15:32:02.602444
- Title: MetaSpeech: Speech Effects Switch Along with Environment for Metaverse
- Title(参考訳): metaspeech: metaverseの環境に合わせて音声効果を切り替える
- Authors: Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao
- Abstract要約: ターゲット環境効果音声の変換に音声変換を用いた手法を提案する。
提案モデルでは,特定の環境効果の変換を完了し,音声変換タスクのベースライン手法よりも優れる。
- 参考スコア(独自算出の注目度): 32.731900584216724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Metaverse expands the physical world to a new dimension, and the physical
environment and Metaverse environment can be directly connected and entered.
Voice is an indispensable communication medium in the real world and Metaverse.
Fusion of the voice with environment effects is important for user immersion in
Metaverse. In this paper, we proposed using the voice conversion based method
for the conversion of target environment effect speech. The proposed method was
named MetaSpeech, which introduces an environment effect module containing an
effect extractor to extract the environment information and an effect encoder
to encode the environment effect condition, in which gradient reversal layer
was used for adversarial training to keep the speech content and speaker
information while disentangling the environmental effects. From the experiment
results on the public dataset of LJSpeech with four environment effects, the
proposed model could complete the specific environment effect conversion and
outperforms the baseline methods from the voice conversion task.
- Abstract(参考訳): メタバースは物理世界を新しい次元に拡張し、物理的環境とメタバース環境を直接接続して入力することができる。
音声は現実世界で不可欠なコミュニケーション媒体であり、メタバースである。
音声と環境効果の融合はMetaverseにおけるユーザの没入に重要である。
本稿では,ターゲット環境効果音声の変換に音声変換を用いた手法を提案する。
提案手法は,環境情報を抽出するエフェクト抽出器と環境影響条件を符号化するエフェクトエンコーダとを含む環境効果モジュールを導入し,環境影響を解消しつつ,音声内容と話者情報を保持するための対向訓練に勾配反転層を用いた。
4つの環境効果を持つLJSpeechの公開データセットを用いた実験結果から,提案したモデルは,特定の環境効果の変換を完了し,音声変換タスクからベースライン手法より優れる。
関連論文リスト
- Enhancing Synthetic Training Data for Speech Commands: From ASR-Based Filtering to Domain Adaptation in SSL Latent Space [10.875499903992782]
我々は、音声コマンド分類の特定のタスクに対して、合成音声データを用いてゼロショット学習に関する一連の実験を行う。
Google Speech Commands データセットの結果から,単純な ASR ベースのフィルタリング手法が生成したデータの品質に大きな影響を及ぼす可能性が示唆された。
生成した音声データの品質は高いが,自己教師付き(WavLM)機能を用いることで,合成音声と実音声の区別が容易に可能であることを示す。
論文 参考訳(メタデータ) (2024-09-19T13:07:55Z) - Describe Where You Are: Improving Noise-Robustness for Speech Emotion Recognition with Text Description of the Environment [21.123477804401116]
音声感情認識(SER)システムは、周囲ノイズが性能を著しく低下させる現実世界環境でしばしば苦労する。
本稿では,騒音条件下でのSER性能を最大化するために,テスト環境の事前知識を活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T02:30:40Z) - SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic
Speech Processing [17.128885611538486]
パラ言語音声処理は、感情分析や神経認知障害分析などの多くの問題に対処する上で重要である。
音声の特徴を考察し、パラ言語音声処理のための一般的な構造ベースフレームワークであるSpeechFormer++を提案する。
SpeechFormer++は、音声感情認識(IEMOCAP & MELD)、うつ病分類(DAIC-WOZ)、アルツハイマー病検出(Pitt)タスクに基づいて評価される。
論文 参考訳(メタデータ) (2023-02-27T11:48:54Z) - Direction-Aware Adaptive Online Neural Speech Enhancement with an
Augmented Reality Headset in Real Noisy Conversational Environments [21.493664174262737]
本稿では,拡張現実(AR)ヘッドセットにおけるオンライン音声強調の実用的応答・性能認識開発について述べる。
これは、実際の騒々しいエコー環境(例えばカクテルパーティー)における会話を理解するのに役立つ。
この方法は、話者のうるさい残響音声を転写するための重み付き予測誤差(WPE)と呼ばれるブラインド残響法で用いられる。
論文 参考訳(メタデータ) (2022-07-15T05:14:27Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - A Deep Reinforcement Learning Approach for Audio-based Navigation and
Audio Source Localization in Multi-speaker Environments [1.0527821704930371]
本研究では,3次元環境をナビゲートし,人間の音声源の位置を推定する問題に対して,深層強化学習を適用した。
我々はUnityゲームエンジンを用いて2つの仮想環境を作成し、その1つはオーディオベースのナビゲーション問題を示し、もう1つはオーディオソースのローカライゼーション問題を示す。
また、PPOオンライン強化学習アルゴリズムに基づく自律エージェントを作成し、これらの環境を解決するためのトレーニングを試みる。
論文 参考訳(メタデータ) (2021-10-25T10:18:34Z) - VAW-GAN for Disentanglement and Recomposition of Emotional Elements in
Speech [91.92456020841438]
変分自己符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)による音声の感情要素のアンタングル化と再分解について検討する。
本稿では,2つのVAW-GANパイプライン,1つはスペクトル変換,もう1つは韻律変換を含む話者依存型ECVフレームワークを提案する。
提案手法の有効性を客観評価と主観評価の両方で検証した。
論文 参考訳(メタデータ) (2020-11-03T08:49:33Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。