論文の概要: Lightweight and perceptually-guided voice conversion for electro-laryngeal speech
- arxiv url: http://arxiv.org/abs/2601.03892v1
- Date: Wed, 07 Jan 2026 13:01:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.56317
- Title: Lightweight and perceptually-guided voice conversion for electro-laryngeal speech
- Title(参考訳): 高周波音声に対する軽量・知覚誘導型音声変換
- Authors: Benedikt Mayrhofer, Franz Pernkopf, Philipp Aichinger, Martin Hagmüller,
- Abstract要約: エレクトロ喉頭 (EL) 音声は, 一定のピッチ, 限定韻律, 機械的雑音によって特徴付けられる。
本稿では,音高とエネルギーモジュールを除去し,自己教師付き事前訓練と並列ELによる教師付き微調整と,知覚的および知能的損失によって導かれる健全な(HE)音声データを組み合わせることで,最先端のStreamVCフレームワークをこの環境に軽量に適応させることを提案する。
- 参考スコア(独自算出の注目度): 8.112505134757415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Electro-laryngeal (EL) speech is characterized by constant pitch, limited prosody, and mechanical noise, reducing naturalness and intelligibility. We propose a lightweight adaptation of the state-of-the-art StreamVC framework to this setting by removing pitch and energy modules and combining self-supervised pretraining with supervised fine-tuning on parallel EL and healthy (HE) speech data, guided by perceptual and intelligibility losses. Objective and subjective evaluations across different loss configurations confirm their influence: the best model variant, based on WavLM features and human-feedback predictions (+WavLM+HF), drastically reduces character error rate (CER) of EL inputs, raises naturalness mean opinion score (nMOS) from 1.1 to 3.3, and consistently narrows the gap to HE ground-truth speech in all evaluated metrics. These findings demonstrate the feasibility of adapting lightweight voice conversion architectures to EL voice rehabilitation while also identifying prosody generation and intelligibility improvements as the main remaining bottlenecks.
- Abstract(参考訳): EL音声は, 一定のピッチ, 限られた韻律, 機械的雑音によって特徴付けられる。
本稿では,音高とエネルギーモジュールを除去し,自己教師付き事前訓練と並列ELによる教師付き微調整と,知覚的および知能的損失によって導かれる健全な(HE)音声データを組み合わせることで,最先端のStreamVCフレームワークをこの環境に軽量に適応させることを提案する。
WavLMの特徴とヒューマンフィードバック予測(+WavLM+HF)に基づく最良のモデル変種は、EL入力の文字誤り率(CER)を大幅に削減し、自然度平均評価スコア(nMOS)を1.1から3.3に引き上げ、すべての評価指標でHE音声とのギャップを一貫して狭める。
これらの結果から, EL音声再生に軽量な音声変換アーキテクチャを適用しつつ, プロソディ生成とインテリジェンスの改善を主なボトルネックとする可能性が示唆された。
関連論文リスト
- Confidence-Guided Error Correction for Disordered Speech Recognition [10.275737387265321]
音声認識のための後処理モジュールとしての大規模言語モデル(LLM)について検討する。
話者とデータセット間のロバスト性や一般化を改善するために,単語レベルの不確実性推定を直接LLMトレーニングに組み込む信頼性インフォームドプロンプトを提案する。
我々はLLaMA 3.1モデルを微調整し、我々のアプローチを転写のみの微調整とポストホック信頼に基づくフィルタリングと比較する。
論文 参考訳(メタデータ) (2025-09-29T17:00:38Z) - DRES: Benchmarking LLMs for Disfluency Removal [27.083825614818135]
um"、"uh"、インタージェクション、括弧、編集されたステートメントなどの分散は、音声駆動システムにおいて永続的な課題である。
制御されたテキストレベルのベンチマークである拡散除去評価スイートは、このタスクに対して再現可能なセマンティックアッパーバウンドを確立する。
DRESは、人間の注釈付きSwitchboard transcriptの上に構築され、ASRエラーからの拡散除去と音響的変動を分離する。
論文 参考訳(メタデータ) (2025-09-24T17:08:12Z) - Towards Robust Assessment of Pathological Voices via Combined Low-Level Descriptors and Foundation Model Representations [39.31175048498422]
本研究では,声質評価ネットワーク (VOQANet) を提案する。
また,低レベル音声記述子であるjitter,shimmer,haronics-to-noise ratio(HNR)とSFMをハイブリッド表現に組み込んだVOQANet+を導入する。
以上の結果から,特に患者レベルでの母音による入力は,音声属性を抽出する発話の長大さに優れることがわかった。
論文 参考訳(メタデータ) (2025-05-27T15:48:17Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - High-Quality Automatic Voice Over with Accurate Alignment: Supervision
through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。
実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文 参考訳(メタデータ) (2023-06-29T15:02:22Z) - Parameter-Efficient Learning for Text-to-Speech Accent Adaptation [58.356667204518985]
本稿では、テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
冷凍前訓練TSモデルからの資源効率適応は、元のトレーニング可能なパラメータの1.2%から0.8%しか使用していない。
実験結果から,提案手法はパラメータ効率の高いデコーダの微調整により,自然度と競合できることがわかった。
論文 参考訳(メタデータ) (2023-05-18T22:02:59Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Improving Perceptual Quality by Phone-Fortified Perceptual Loss using
Wasserstein Distance for Speech Enhancement [23.933935913913043]
本稿では,SEモデルの訓練を考慮に入れたPFPL( Phone-fortified Perceptual Los)を提案する。
音声情報を効果的に組み込むために、wav2vecモデルの潜在表現に基づいてPFPLを演算する。
実験の結果,PFPLは信号レベルの損失に比べて知覚的評価指標と相関することがわかった。
論文 参考訳(メタデータ) (2020-10-28T18:34:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。