論文の概要: An Objective Evaluation Framework for Pathological Speech Synthesis
- arxiv url: http://arxiv.org/abs/2107.00308v1
- Date: Thu, 1 Jul 2021 08:55:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 21:18:50.520659
- Title: An Objective Evaluation Framework for Pathological Speech Synthesis
- Title(参考訳): 病的音声合成のための客観的評価フレームワーク
- Authors: Bence Mark Halpern, Julian Fritsch, Enno Hermann, Rob van Son, Odette
Scharenborg, Mathew Magimai.-Doss
- Abstract要約: そこで本研究では,合成病理音声の一貫した評価のための一般的な枠組みを提案する。
この枠組みは音声の質と可聴性を評価する。
本研究では, 異なるレベルの音声の理解度で, 変形性音声を合成できることを示す。
- 参考スコア(独自算出の注目度): 36.41726606690864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of pathological speech systems is currently hindered by the
lack of a standardised objective evaluation framework. In this work, (1) we
utilise existing detection and analysis techniques to propose a general
framework for the consistent evaluation of synthetic pathological speech. This
framework evaluates the voice quality and the intelligibility aspects of speech
and is shown to be complementary using our experiments. (2) Using our proposed
evaluation framework, we develop and test a dysarthric voice conversion system
(VC) using CycleGAN-VC and a PSOLA-based speech rate modification technique. We
show that the developed system is able to synthesise dysarthric speech with
different levels of speech intelligibility.
- Abstract(参考訳): 病的発話システムの開発は、現在標準化された客観的評価フレームワークの欠如によって妨げられている。
本研究では,(1)既存の検出・解析手法を用いて,合成病理音声の一貫した評価のための汎用的枠組みを提案する。
この枠組みは, 音声の質と可聴性を評価し, 実験により相補的であることを示す。
2)提案手法を用いて,CycleGAN-VC と PSOLA を用いた音声変換システム (VC) の開発と試験を行った。
開発したシステムでは, 異なるレベルの音声明瞭度を有する構音音声を合成できることを示す。
関連論文リスト
- Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - The complementary roles of non-verbal cues for Robust Pronunciation
Assessment [10.15106073866792]
発音評価システムの研究は、非ネイティブ(L2)音声の音韻的・音声学的側面の活用に焦点を当てている。
本研究では,新しい発音評価フレームワークであるIntraVerbalPAを提案する。
論文 参考訳(メタデータ) (2023-09-14T14:18:07Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Manipulation of oral cancer speech using neural articulatory synthesis [12.537892439672115]
調音合成システムは、調音軌跡を操作でき、合成された音声が、基底真実の口腔癌音声に存在する問題を再現することができる。
客観的かつ主観的な評価は、このフレームワークが自然性を受け入れており、さらなる調査に値することを示している。
論文 参考訳(メタデータ) (2022-03-31T14:40:51Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Towards Identity Preserving Normal to Dysarthric Voice Conversion [37.648612382457756]
本稿では, 話者識別を保ちながら, 正常音声を変形音声に変換する枠組みを提案する。
本研究は,(1)患者のストレスを緩和する臨床的意思決定プロセス,(2)顎関節症音声認識のためのデータ増強に不可欠である。
論文 参考訳(メタデータ) (2021-10-15T17:18:02Z) - Independent Ethical Assessment of Text Classification Models: A Hate
Speech Detection Case Study [0.5541644538483947]
人工知能システムの独立した倫理的評価は、倫理的価値に合わせてシステムの発達、展開、使用を公平に検証するものである。
本研究は、このギャップを埋め、ヘイトスピーチ検出の課題に特化して、テキスト分類モデルの総合的な独立した倫理的評価プロセスを設計する。
論文 参考訳(メタデータ) (2021-07-19T23:03:36Z) - Pathological voice adaptation with autoencoder-based voice conversion [15.687800631199616]
音源として健全な音声を使用する代わりに、既存の病的音声サンプルを新しい話者の音声特性にカスタマイズする。
この手法は,典型的な音声を病的音声に変換する際に通常持つ評価問題を緩和する。
論文 参考訳(メタデータ) (2021-06-15T20:38:10Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。