論文の概要: Phonetic Feedback for Speech Enhancement With and Without Parallel
Speech Data
- arxiv url: http://arxiv.org/abs/2003.01769v1
- Date: Tue, 3 Mar 2020 20:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 23:19:58.606479
- Title: Phonetic Feedback for Speech Enhancement With and Without Parallel
Speech Data
- Title(参考訳): 並列音声データを用いた音声強調のための音声フィードバック
- Authors: Peter Plantinga, Deblin Bagchi, Eric Fosler-Lussier
- Abstract要約: 音声フィードバックは、貴重なトップダウン情報を含むにもかかわらず、音声強調研究ではまれである。
模擬損失の手法を用いて音素フィードバックをオフザシェルフ・エンハンスメント・システムに提供する。
パラレル音声データで訓練された最先端のニューラルエンハンスメントシステムを改善することができることを示す。
- 参考スコア(独自算出の注目度): 19.66983830788521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep learning systems have gained significant ground in speech
enhancement research, these systems have yet to make use of the full potential
of deep learning systems to provide high-level feedback. In particular,
phonetic feedback is rare in speech enhancement research even though it
includes valuable top-down information. We use the technique of mimic loss to
provide phonetic feedback to an off-the-shelf enhancement system, and find
gains in objective intelligibility scores on CHiME-4 data. This technique takes
a frozen acoustic model trained on clean speech to provide valuable feedback to
the enhancement model, even in the case where no parallel speech data is
available. Our work is one of the first to show intelligibility improvement for
neural enhancement systems without parallel speech data, and we show phonetic
feedback can improve a state-of-the-art neural enhancement system trained with
parallel speech data.
- Abstract(参考訳): ディープラーニングシステムは、音声強調研究において重要な基盤を築いているが、これらのシステムは、高レベルなフィードバックを提供するために、ディープラーニングシステムの潜在能力を完全に活用していない。
特に音声フィードバックは、貴重なトップダウン情報を含むにもかかわらず、音声強調研究ではまれである。
模擬損失の手法を用いて音素フィードバックをオフザシェルフ・エンハンスメント・システムに提供し,CHiME-4データに対する客観的インテリジェンススコアの利得を求める。
本手法は, 並列音声データがない場合でも, クリーン音声で学習した凍結音響モデルを用いて拡張モデルに貴重なフィードバックを与える。
我々の研究は、並列音声データのないニューラルエンハンスメントシステムのインテリジェンス向上を示す最初の試みの1つであり、音声フィードバックは、並列音声データで訓練された最先端のニューラルエンハンスメントシステムを改善することができることを示す。
関連論文リスト
- Improving Voice Quality in Speech Anonymization With Just Perception-Informed Losses [0.08155575318208629]
音声匿名化は、話者のアイデンティティを曖昧にしつつ、その後のタスクに重要な情報を保持する必要がある。
本研究は,人間の聴覚システムにインスパイアされた損失関数の重要性を浮き彫りにする。
提案する損失関数はモデルに依存しず,手工芸と深層学習を併用して品質表現を効果的に把握する。
論文 参考訳(メタデータ) (2024-10-20T20:33:44Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Improving Natural-Language-based Audio Retrieval with Transfer Learning
and Audio & Text Augmentations [7.817685358710508]
本稿では,録音やテキストによる記述を共有音声空間に投影するシステムを提案する。
以上の結果から, 使用済み拡張戦略は過剰適合を低減し, 検索性能の向上を図っている。
さらに、AudioCapsデータセットで事前トレーニングを行うことで、さらなる改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-08-24T11:54:42Z) - Personalized Speech Enhancement: New Models and Comprehensive Evaluation [27.572537325449158]
従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。
また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。
その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
論文 参考訳(メタデータ) (2021-10-18T21:21:23Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文 参考訳(メタデータ) (2020-06-22T10:28:38Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。