論文の概要: An Objective Evaluation Framework for Pathological Speech Synthesis
- arxiv url: http://arxiv.org/abs/2107.00308v1
- Date: Thu, 1 Jul 2021 08:55:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 21:18:50.520659
- Title: An Objective Evaluation Framework for Pathological Speech Synthesis
- Title(参考訳): 病的音声合成のための客観的評価フレームワーク
- Authors: Bence Mark Halpern, Julian Fritsch, Enno Hermann, Rob van Son, Odette
Scharenborg, Mathew Magimai.-Doss
- Abstract要約: そこで本研究では,合成病理音声の一貫した評価のための一般的な枠組みを提案する。
この枠組みは音声の質と可聴性を評価する。
本研究では, 異なるレベルの音声の理解度で, 変形性音声を合成できることを示す。
- 参考スコア(独自算出の注目度): 36.41726606690864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of pathological speech systems is currently hindered by the
lack of a standardised objective evaluation framework. In this work, (1) we
utilise existing detection and analysis techniques to propose a general
framework for the consistent evaluation of synthetic pathological speech. This
framework evaluates the voice quality and the intelligibility aspects of speech
and is shown to be complementary using our experiments. (2) Using our proposed
evaluation framework, we develop and test a dysarthric voice conversion system
(VC) using CycleGAN-VC and a PSOLA-based speech rate modification technique. We
show that the developed system is able to synthesise dysarthric speech with
different levels of speech intelligibility.
- Abstract(参考訳): 病的発話システムの開発は、現在標準化された客観的評価フレームワークの欠如によって妨げられている。
本研究では,(1)既存の検出・解析手法を用いて,合成病理音声の一貫した評価のための汎用的枠組みを提案する。
この枠組みは, 音声の質と可聴性を評価し, 実験により相補的であることを示す。
2)提案手法を用いて,CycleGAN-VC と PSOLA を用いた音声変換システム (VC) の開発と試験を行った。
開発したシステムでは, 異なるレベルの音声明瞭度を有する構音音声を合成できることを示す。
関連論文リスト
- NeuroXVocal: Detection and Explanation of Alzheimer's Disease through Non-invasive Analysis of Picture-prompted Speech [4.815952991777717]
NeuroXVocalは、音声分析によってアルツハイマー病(AD)の可能性を分類し、説明する新しい二重成分システムである。
分類コンポーネント(Neuro)は、音声パターンと音声特徴をキャプチャする音響特徴、音声書き起こしから抽出したテキスト特徴、言語パターンを表す事前計算された埋め込みの3つの異なるデータストリームを処理する。
説明可能性コンポーネント(XVocal)は、大規模言語モデルとAD研究文献のドメイン固有の知識ベースを組み合わせた、検索・拡張生成(RAG)アプローチを実装している。
論文 参考訳(メタデータ) (2025-02-14T12:09:49Z) - Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。
また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。
実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文 参考訳(メタデータ) (2025-01-29T18:58:48Z) - Unveiling Interpretability in Self-Supervised Speech Representations for Parkinson's Diagnosis [9.91077163490596]
本稿では,パーキンソン病の診断を支援するための新しい枠組みを提案する。
提案するフレームワークは, 単純かつ効果的なクロスアテンション機構の設計を通じて, 2つの異なる相補的視点から解釈可能性を提供する。
提案手法は最先端の手法と競合すると同時に,言語間シナリオにおける堅牢性も実証する。
論文 参考訳(メタデータ) (2024-12-02T22:23:43Z) - Automating Feedback Analysis in Surgical Training: Detection, Categorization, and Assessment [65.70317151363204]
本研究は,非構造化現実記録からの外科的対話を再構築するための最初の枠組みを紹介する。
外科訓練では,ライブ手術中に訓練者に提供する形式的言語フィードバックは,安全性の確保,行動の即時修正,長期的スキル獲得の促進に不可欠である。
本フレームワークは,音声活動の検出,話者ダイアリゼーション,自動音声認識と,幻覚を除去する新たな拡張機能を統合する。
論文 参考訳(メタデータ) (2024-12-01T10:35:12Z) - A Comprehensive Rubric for Annotating Pathological Speech [0.0]
音声学, 流音学, 韻律学など, 音声品質の様々な側面に基づく包括的ルーリックを導入する。
本研究の目的は,ダウン症候群患者の発話中の誤りを識別するための標準化基準を確立することである。
論文 参考訳(メタデータ) (2024-04-29T16:44:27Z) - Lightly Weighted Automatic Audio Parameter Extraction for the Quality
Assessment of Consensus Auditory-Perceptual Evaluation of Voice [18.8222742272435]
提案手法は, ジッタ, 絶対ジッタ, シャマー, ハーモニック・ツー・ノイズ比 (HNR) , ゼロクロスという, 年齢, 性別, および5つの音響パラメータを利用する。
その結果,提案手法は最先端技術(SOTA)手法と類似し,一般的な音声事前学習モデルを用いて得られた潜在表現よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-11-27T07:19:22Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Manipulation of oral cancer speech using neural articulatory synthesis [12.537892439672115]
調音合成システムは、調音軌跡を操作でき、合成された音声が、基底真実の口腔癌音声に存在する問題を再現することができる。
客観的かつ主観的な評価は、このフレームワークが自然性を受け入れており、さらなる調査に値することを示している。
論文 参考訳(メタデータ) (2022-03-31T14:40:51Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。