論文の概要: Wavebender GAN: An architecture for phonetically meaningful speech
manipulation
- arxiv url: http://arxiv.org/abs/2202.10973v1
- Date: Tue, 22 Feb 2022 15:26:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 16:52:57.342458
- Title: Wavebender GAN: An architecture for phonetically meaningful speech
manipulation
- Title(参考訳): Wavebender GAN:音声に意味のある音声操作のためのアーキテクチャ
- Authors: Gustavo Teodoro D\"ohler Beck, Ulme Wennberg, Zofia Malisz, Gustav Eje
Henter
- Abstract要約: 本研究は,設計よりも学習を通じて音声特性を操作できるシステムを提案する。
アーキテクチャは任意の音声特性を制御することを学び、ニューラルネットワークの進歩を活用してリアルな出力を得る。
- 参考スコア(独自算出の注目度): 11.779762842630838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has revolutionised synthetic speech quality. However, it has
thus far delivered little value to the speech science community. The new
methods do not meet the controllability demands that practitioners in this area
require e.g.: in listening tests with manipulated speech stimuli. Instead,
control of different speech properties in such stimuli is achieved by using
legacy signal-processing methods. This limits the range, accuracy, and speech
quality of the manipulations. Also, audible artefacts have a negative impact on
the methodological validity of results in speech perception studies.
This work introduces a system capable of manipulating speech properties
through learning rather than design. The architecture learns to control
arbitrary speech properties and leverages progress in neural vocoders to obtain
realistic output. Experiments with copy synthesis and manipulation of a small
set of core speech features (pitch, formants, and voice quality measures)
illustrate the promise of the approach for producing speech stimuli that have
accurate control and high perceptual quality.
- Abstract(参考訳): ディープラーニングは合成音声の品質に革命をもたらした。
しかし、これまでのところ、言語科学コミュニティにはほとんど価値を与えていない。
新しい方法は、例えば、操作された音声刺激を伴うリスニングテストにおいて、この領域の実践者が必要とする制御可能性要求を満たさない。
代わりに、従来の信号処理手法を用いて、そのような刺激の異なる音声特性の制御を行う。
これにより操作の範囲、精度、音声品質が制限される。
また,聴覚アーチファクトは,音声知覚研究の結果の方法論的妥当性に悪影響を及ぼす。
本研究は,設計よりも学習を通じて音声特性を操作できるシステムを提案する。
アーキテクチャは任意の音声特性を制御することを学び、ニューラルネットワークの進歩を利用してリアルな出力を得る。
少数のコア音声特徴(ピッチ、フォルマント、音声品質尺度)のコピー合成と操作の実験は、正確な制御と高い知覚品質を持つ音声刺激を生成するためのアプローチの可能性を示している。
関連論文リスト
- Controlling Emotion in Text-to-Speech with Natural Language Prompts [29.013577423045255]
本稿では,感情に富んだテキストの繰り返しから派生した埋め込みを前提としたシステムを提案する。
話者とプロンプト埋め込みの合同表現は、トランスフォーマーベースアーキテクチャ内のいくつかの点で統合される。
本手法は感情音声とテキストデータセットを融合して学習し,モデルの一般化能力を高めるため,各訓練におけるプロンプトを変化させる。
論文 参考訳(メタデータ) (2024-06-10T15:58:42Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic
Speech Processing [17.128885611538486]
パラ言語音声処理は、感情分析や神経認知障害分析などの多くの問題に対処する上で重要である。
音声の特徴を考察し、パラ言語音声処理のための一般的な構造ベースフレームワークであるSpeechFormer++を提案する。
SpeechFormer++は、音声感情認識(IEMOCAP & MELD)、うつ病分類(DAIC-WOZ)、アルツハイマー病検出(Pitt)タスクに基づいて評価される。
論文 参考訳(メタデータ) (2023-02-27T11:48:54Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Vocoder-Based Speech Synthesis from Silent Videos [28.94460283719776]
深層学習を用いた話し手のサイレントビデオから音声を合成する方法を提案する。
システムは生のビデオフレームから音響特徴へのマッピング関数を学習し、ボコーダ合成アルゴリズムを用いて音声を再構成する。
論文 参考訳(メタデータ) (2020-04-06T10:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。