論文の概要: An Objective Evaluation Framework for Pathological Speech Synthesis
- arxiv url: http://arxiv.org/abs/2107.00308v1
- Date: Thu, 1 Jul 2021 08:55:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 21:18:50.520659
- Title: An Objective Evaluation Framework for Pathological Speech Synthesis
- Title(参考訳): 病的音声合成のための客観的評価フレームワーク
- Authors: Bence Mark Halpern, Julian Fritsch, Enno Hermann, Rob van Son, Odette
Scharenborg, Mathew Magimai.-Doss
- Abstract要約: そこで本研究では,合成病理音声の一貫した評価のための一般的な枠組みを提案する。
この枠組みは音声の質と可聴性を評価する。
本研究では, 異なるレベルの音声の理解度で, 変形性音声を合成できることを示す。
- 参考スコア(独自算出の注目度): 36.41726606690864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of pathological speech systems is currently hindered by the
lack of a standardised objective evaluation framework. In this work, (1) we
utilise existing detection and analysis techniques to propose a general
framework for the consistent evaluation of synthetic pathological speech. This
framework evaluates the voice quality and the intelligibility aspects of speech
and is shown to be complementary using our experiments. (2) Using our proposed
evaluation framework, we develop and test a dysarthric voice conversion system
(VC) using CycleGAN-VC and a PSOLA-based speech rate modification technique. We
show that the developed system is able to synthesise dysarthric speech with
different levels of speech intelligibility.
- Abstract(参考訳): 病的発話システムの開発は、現在標準化された客観的評価フレームワークの欠如によって妨げられている。
本研究では,(1)既存の検出・解析手法を用いて,合成病理音声の一貫した評価のための汎用的枠組みを提案する。
この枠組みは, 音声の質と可聴性を評価し, 実験により相補的であることを示す。
2)提案手法を用いて,CycleGAN-VC と PSOLA を用いた音声変換システム (VC) の開発と試験を行った。
開発したシステムでは, 異なるレベルの音声明瞭度を有する構音音声を合成できることを示す。
関連論文リスト
- Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation [8.170174172545831]
本稿では,2024年における音響シーン・イベントの検出・分類の一環として,音シーン合成の課題に対処する。
本稿では,Fr'echet Audio Distanceと知覚的アセスメントを組み合わせた評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-23T06:35:41Z) - A Comprehensive Rubric for Annotating Pathological Speech [0.0]
音声学, 流音学, 韻律学など, 音声品質の様々な側面に基づく包括的ルーリックを導入する。
本研究の目的は,ダウン症候群患者の発話中の誤りを識別するための標準化基準を確立することである。
論文 参考訳(メタデータ) (2024-04-29T16:44:27Z) - Lightly Weighted Automatic Audio Parameter Extraction for the Quality
Assessment of Consensus Auditory-Perceptual Evaluation of Voice [18.8222742272435]
提案手法は, ジッタ, 絶対ジッタ, シャマー, ハーモニック・ツー・ノイズ比 (HNR) , ゼロクロスという, 年齢, 性別, および5つの音響パラメータを利用する。
その結果,提案手法は最先端技術(SOTA)手法と類似し,一般的な音声事前学習モデルを用いて得られた潜在表現よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-11-27T07:19:22Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Manipulation of oral cancer speech using neural articulatory synthesis [12.537892439672115]
調音合成システムは、調音軌跡を操作でき、合成された音声が、基底真実の口腔癌音声に存在する問題を再現することができる。
客観的かつ主観的な評価は、このフレームワークが自然性を受け入れており、さらなる調査に値することを示している。
論文 参考訳(メタデータ) (2022-03-31T14:40:51Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Towards Identity Preserving Normal to Dysarthric Voice Conversion [37.648612382457756]
本稿では, 話者識別を保ちながら, 正常音声を変形音声に変換する枠組みを提案する。
本研究は,(1)患者のストレスを緩和する臨床的意思決定プロセス,(2)顎関節症音声認識のためのデータ増強に不可欠である。
論文 参考訳(メタデータ) (2021-10-15T17:18:02Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。