論文の概要: DeepTalk: Vocal Style Encoding for Speaker Recognition and Speech
Synthesis
- arxiv url: http://arxiv.org/abs/2012.05084v2
- Date: Sun, 14 Feb 2021 14:24:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 01:47:03.250942
- Title: DeepTalk: Vocal Style Encoding for Speaker Recognition and Speech
Synthesis
- Title(参考訳): DeepTalk: 話者認識と音声合成のための音声スタイル符号化
- Authors: Anurag Chowdhury, Arun Ross, Prabu David
- Abstract要約: 本稿では,生音声データから直接発声スタイル特徴を抽出するDeepTalkという韻律符号化ネットワークを提案する。
deeptalkメソッドは、複数の挑戦的なデータセットにわたって、最先端の話者認識システムを上回る。
DeepTalkを最新の音声シンセサイザーに統合し、合成音声を生成します。
- 参考スコア(独自算出の注目度): 16.480527614921012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speaker recognition algorithms typically characterize speech audio
using short-term spectral features that encode the physiological and anatomical
aspects of speech production. Such algorithms do not fully capitalize on
speaker-dependent characteristics present in behavioral speech features. In
this work, we propose a prosody encoding network called DeepTalk for extracting
vocal style features directly from raw audio data. The DeepTalk method
outperforms several state-of-the-art speaker recognition systems across
multiple challenging datasets. The speaker recognition performance is further
improved by combining DeepTalk with a state-of-the-art physiological speech
feature-based speaker recognition system. We also integrate DeepTalk into a
current state-of-the-art speech synthesizer to generate synthetic speech. A
detailed analysis of the synthetic speech shows that the DeepTalk captures F0
contours essential for vocal style modeling. Furthermore, DeepTalk-based
synthetic speech is shown to be almost indistinguishable from real speech in
the context of speaker recognition.
- Abstract(参考訳): 自動音声認識アルゴリズムは通常、音声生成の生理学的および解剖学的側面を符号化する短期的スペクトル特徴を用いて音声を特徴付ける。
このようなアルゴリズムは、行動音声の特徴に含まれる話者依存特性を十分に活用していない。
本研究では,生音声データから直接発声スタイル特徴を抽出するDeepTalkという韻律符号化ネットワークを提案する。
deeptalkメソッドは、複数の挑戦的なデータセットにわたって、最先端の話者認識システムを上回る。
DeepTalkと最先端の生理的特徴に基づく話者認識システムを組み合わせることで、話者認識性能をさらに向上する。
また、deeptalkを最先端の音声合成システムに統合し、合成音声を生成する。
合成音声の詳細な分析により、DeepTalkは、音声スタイルモデリングに不可欠なF0輪郭をキャプチャすることを示した。
さらに、DeepTalkに基づく合成音声は、話者認識の文脈において、実際の音声とほとんど区別できない。
関連論文リスト
- Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Automatic Voice Identification after Speech Resynthesis using PPG [13.041006302302808]
音声の再合成は、入力として別の音声で音声を合成したいという一般的なタスクである。
本稿では, PPGに基づく音声合成システムを提案する。
知覚的評価は、それが正しい音質を生み出すことを評価する。
論文 参考訳(メタデータ) (2024-08-05T13:59:40Z) - Coding Speech through Vocal Tract Kinematics [5.0751585360524425]
調音特徴は声道調音器のキネマティックな形状と音源の特徴の痕跡であり、直感的に解釈可能で制御可能である。
話者埋め込みは音節から効果的に切り離され、アクセントを保ったゼロショット音声変換が可能となる。
論文 参考訳(メタデータ) (2024-06-18T18:38:17Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via
Speech-Visage Feature Selection [32.65865343643458]
近年の研究では、サイレント・トーキング・フェイス・ビデオから音声を合成する際の印象的な性能が示されている。
本稿では、音声コンテンツと話者識別を、入力ビデオの視覚的特徴から分離する音声視覚選択モジュールを提案する。
提案する枠組みは、未確認被写体の無声音声映像が付与された場合でも、適切な内容を含む音声を合成する利点をもたらす。
論文 参考訳(メタデータ) (2022-06-15T11:29:58Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - From Speaker Verification to Multispeaker Speech Synthesis, Deep
Transfer with Feedback Constraint [11.982748481062542]
本稿では,マルチスピーカ音声合成のためのフィードバック制約を含むシステムを提案する。
我々は,話者検証ネットワークに係わることにより,話者検証から音声合成への知識伝達の促進に成功している。
モデルはトレーニングされ、公開されているデータセットで評価される。
論文 参考訳(メタデータ) (2020-05-10T06:11:37Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。