Fugu-MT 論文翻訳(概要): Towards Identity Preserving Normal to Dysarthric Voice Conversion

論文の概要: Towards Identity Preserving Normal to Dysarthric Voice Conversion

arxiv url: http://arxiv.org/abs/2110.08213v1
Date: Fri, 15 Oct 2021 17:18:02 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-18 15:53:00.585484
Title: Towards Identity Preserving Normal to Dysarthric Voice Conversion
Title（参考訳）: 正常から義肢への音声変換のアイデンティティ維持に向けて
Authors: Wen-Chin Huang, Bence Mark Halpern, Lester Phillip Violeta, Odette Scharenborg, Tomoki Toda
Abstract要約: 本稿では, 話者識別を保ちながら, 正常音声を変形音声に変換する枠組みを提案する。本研究は,(1)患者のストレスを緩和する臨床的意思決定プロセス,(2)顎関節症音声認識のためのデータ増強に不可欠である。
参考スコア（独自算出の注目度）: 37.648612382457756
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a voice conversion framework that converts normal speech into dysarthric speech while preserving the speaker identity. Such a framework is essential for (1) clinical decision making processes and alleviation of patient stress, (2) data augmentation for dysarthric speech recognition. This is an especially challenging task since the converted samples should capture the severity of dysarthric speech while being highly natural and possessing the speaker identity of the normal speaker. To this end, we adopted a two-stage framework, which consists of a sequence-to-sequence model and a nonparallel frame-wise model. Objective and subjective evaluations were conducted on the UASpeech dataset, and results showed that the method was able to yield reasonable naturalness and capture severity aspects of the pathological speech. On the other hand, the similarity to the normal source speaker's voice was limited and requires further improvements.
Abstract（参考訳）: 話者の身元を保ちながら、通常の音声を変形音声に変換する音声変換フレームワークを提案する。このような枠組みは,(1)臨床的意思決定過程と患者のストレス軽減,(2)構音障害音声認識のためのデータ拡張に不可欠である。変換されたサンプルは、非常に自然で通常の話者の話者同一性を持ちながら、調音障害の重大さを捉えるべきであるため、これは特に難しい課題である。この目的のために,シーケンシャル・ツー・シーケンスモデルと非並列フレームワイズモデルからなる2段階フレームワークを採用した。 UASpeechデータセットを用いて目的的,主観的な評価を行い,本手法が適切な自然性を獲得し,病的音声の重症度を捉えることができることを示した。一方、通常の音源話者の声との類似性は限られており、さらなる改善が必要であった。

関連論文リスト

Improved Intelligibility of Dysarthric Speech using Conditional Flow Matching [0.0]
失語症(Dysarthria)は、言語機能障害の1つ。これにより、頑健な顎関節-正則音声変換技術の開発が必要とされる。
論文参考訳（メタデータ） (2025-06-19T08:24:17Z)
Exploring Generative Error Correction for Dysarthric Speech Recognition [12.584296717901116]
本稿では,InterSPEECH 2025における音声アクセシビリティ・プロジェクト・チャレンジのための2段階フレームワークを提案する。モデルスケールとトレーニング戦略の異なる構成を評価し、特定の仮説選択を取り入れて転写精度を向上させる。変形性音声認識における音響モデルと言語モデリングの相補的役割について考察する。
論文参考訳（メタデータ） (2025-05-26T16:06:31Z)
DyPCL: Dynamic Phoneme-level Contrastive Learning for Dysarthric Speech Recognition [12.923409319624254]
変形性音声認識のギャップを埋める動的音素レベルのコントラスト学習(DyPCL)法を提案する。音声の発話を音素レベルのコントラスト学習のための音素セグメントに分解し、動的接続性時間的分類アライメントを活用する。難易度による訓練への我々のアプローチは、話者の固有の多様性を軽減し、難易度の高い発話を識別する。
論文参考訳（メタデータ） (2025-01-31T10:25:42Z)
Investigating the Effects of Diffusion-based Conditional Generative Speech Models Used for Speech Enhancement on Dysarthric Speech [7.787211625411271]
本研究は, 理想的な非雑音環境下で記録された変形性音声データの強調過程において, 音響的変形性音声手がかりのいくつかが失われることを実験的に示す。特徴空間内の入力音声信号と融合した場合に,残響音声信号の形で拡張モデルにより除去された音響的手がかりが相補的な外科的手がかりとなることを示す。
論文参考訳（メタデータ） (2024-12-18T15:18:05Z)
Perceiver-Prompt: Flexible Speaker Adaptation in Whisper for Chinese Disordered Speech Recognition [40.44769351506048]
Perceiver-PromptはWhisperの大規模モデル上でP-Tuningを利用する話者適応手法である。我々はまずLoRAを用いてWhisperを微調整し、次にトレーニング可能なPerceiverを統合して可変長入力から固定長話者プロンプトを生成する。
論文参考訳（メタデータ） (2024-06-14T09:36:46Z)
Use of Speech Impairment Severity for Dysarthric Speech Recognition [37.93801885333925]
本稿では, 難易度と話者識別性を両立させる新しい手法を提案する。 UASpeechの実験では、最先端のハイブリッドDNN、E2E Conformer、事前訓練されたWav2vec 2.0 ASRシステムに音声障害の重大度を組み込むことが提案されている。
論文参考訳（メタデータ） (2023-05-18T02:42:59Z)
Speaker Identity Preservation in Dysarthric Speech Reconstruction by Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。話者識別に最適化された話者エンコーダ (SE) について検討した。我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文参考訳（メタデータ） (2022-02-18T08:59:36Z)
Investigation of Data Augmentation Techniques for Disordered Speech Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。正常な音声と無秩序な音声の両方が増強過程に利用された。 UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文参考訳（メタデータ） (2022-01-14T17:09:22Z)
Pathological voice adaptation with autoencoder-based voice conversion [15.687800631199616]
音源として健全な音声を使用する代わりに、既存の病的音声サンプルを新しい話者の音声特性にカスタマイズする。この手法は,典型的な音声を病的音声に変換する際に通常持つ評価問題を緩和する。
論文参考訳（メタデータ） (2021-06-15T20:38:10Z)
A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。変形性音声の質は統計VCによって大幅に改善される。しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文参考訳（メタデータ） (2021-06-02T18:41:03Z)
Learning Explicit Prosody Models and Deep Speaker Embeddings for Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文参考訳（メタデータ） (2020-11-03T13:08:53Z)
Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文参考訳（メタデータ） (2020-02-20T14:13:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。