論文の概要: Dysarthria Normalization via Local Lie Group Transformations for Robust ASR
- arxiv url: http://arxiv.org/abs/2504.12279v2
- Date: Sun, 04 May 2025 11:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 14:44:44.040894
- Title: Dysarthria Normalization via Local Lie Group Transformations for Robust ASR
- Title(参考訳): ロバストASRにおける局所リー群変換によるDysarthria正規化
- Authors: Mikhail Osipov,
- Abstract要約: 本稿では, 時間, 周波数, 振幅歪みをスペクトルの局所的リー群変換としてモデル化し, 変形音声の正規化手法を提案する。
ニューラルネットワークは、合成的にワープされた健全な音声のみを使用して、フィールドを推論し、テスト時に逆を適用するように訓練されている。
実際の病的言論では、システムは一貫した利益をもたらす: TORGO発話の挑戦に対する最大17ポイントのWER削減、WER分散の16%の減少、クリーンなCommonVoiceデータを劣化させることなく。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a geometry-driven method for normalizing dysarthric speech by modeling time, frequency, and amplitude distortions as smooth, local Lie group transformations of spectrograms. Scalar fields generate these deformations via exponential maps, and a neural network is trained - using only synthetically warped healthy speech - to infer the fields and apply an approximate inverse at test time. We introduce a spontaneous-symmetry-breaking (SSB) potential that encourages the model to discover non-trivial field configurations. On real pathological speech, the system delivers consistent gains: up to 17 percentage-point WER reduction on challenging TORGO utterances and a 16 percent drop in WER variance, with no degradation on clean CommonVoice data. Character and phoneme error rates improve in parallel, confirming linguistic relevance. Our results demonstrate that geometrically structured warping provides consistent, zero-shot robustness gains for dysarthric ASR.
- Abstract(参考訳): 本稿では, 時間, 周波数, 振幅歪みをスムーズな局所リー群変換としてモデル化し, 変形音声を正規化するための幾何学的手法を提案する。
スカラーフィールドは指数写像を介してこれらの変形を生成し、ニューラルネットワークは、合成的に歪んだ健全な音声のみを使用して、フィールドを推論し、テスト時に近似逆数を適用するように訓練される。
本研究では,非自明な場構成の発見を促す自然対称性破れ(SSB)ポテンシャルを導入する。
実際の病的言論では、システムは一貫した利益をもたらす: TORGO発話の挑戦に対する最大17ポイントのWER削減、WER分散の16%の減少、クリーンなCommonVoiceデータを劣化させることなく。
文字と音素の誤り率は並列的に改善し、言語的関連性を確認する。
以上の結果から, 外科的ASRに対して, 幾何的構造が一貫したゼロショットロバスト性向上をもたらすことが示唆された。
関連論文リスト
- VINP: Variational Bayesian Inference with Neural Speech Prior for Joint ASR-Effective Speech Dereverberation and Blind RIR Identification [9.726628816336651]
本研究は, ニューラルスピーチ先行(VINP)を用いた変分ベイズ推論フレームワークを提案する。
単チャンネル音声の発声実験では、人間の知覚に関連するほとんどの指標において、VINPが高度なレベルに達することが示されている。
論文 参考訳(メタデータ) (2025-02-11T02:54:28Z) - Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR [18.701864254184308]
自己教師付き音声表現に基づくリズムと音声の変換手法を組み合わせることで、典型的な音声に変形をマッピングする。
提案したリズム変換は, より重篤な変形症例を有するトーゴコーパスの話者のパフォーマンスを特に向上させることが判明した。
論文 参考訳(メタデータ) (2025-01-17T15:39:21Z) - Relative Representations: Topological and Geometric Perspectives [53.88896255693922]
相対表現はゼロショットモデルの縫合に対する確立されたアプローチである。
相対変換において正規化手順を導入し、非等方的再スケーリングや置換に不変となる。
第二に、クラス内のクラスタリングを促進するトポロジカル正規化損失である、微調整された相対表現におけるトポロジカルデシフィケーションの展開を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:09:22Z) - Enhancing dysarthria speech feature representation with empirical mode
decomposition and Walsh-Hadamard transform [8.032273183441921]
We propose a feature enhancement for dysarthria speech called WHFEMD。
実験モード分解(EMD)と高速ウォルシュ・アダマール変換(FWHT)を組み合わせて特徴を増強する。
論文 参考訳(メタデータ) (2023-12-30T13:25:26Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Learning and controlling the source-filter representation of speech with
a variational autoencoder [23.05989605017053]
音声処理において、音源フィルタモデルは、音声信号はいくつかの独立的かつ物理的に有意な連続潜伏因子から生成されるとみなす。
本稿では,潜在部分空間内の音源-フィルタ音声要素を高精度かつ独立に制御する手法を提案する。
テキストや人ラベルデータなどの追加情報を必要としないため、音声スペクトログラムの深い生成モデルが得られる。
論文 参考訳(メタデータ) (2022-04-14T16:13:06Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Unsupervised Cross-Domain Speech-to-Speech Conversion with
Time-Frequency Consistency [14.062850439230111]
本稿では,逆行訓練におけるスペクトルの整合性を促進する条件を提案する。
Librispeech corpus を用いた実験結果から,TF の整合性で訓練したモデルにより,音声から音声への変換の精度が向上することが示唆された。
論文 参考訳(メタデータ) (2020-05-15T22:27:07Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。