Fugu-MT 論文翻訳(概要): Dysarthria Normalization via Local Lie Group Transformations for Robust ASR

論文の概要: Dysarthria Normalization via Local Lie Group Transformations for Robust ASR

arxiv url: http://arxiv.org/abs/2504.12279v2
Date: Sun, 04 May 2025 11:11:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-06 14:44:44.040894
Title: Dysarthria Normalization via Local Lie Group Transformations for Robust ASR
Title（参考訳）: ロバストASRにおける局所リー群変換によるDysarthria正規化
Authors: Mikhail Osipov,
Abstract要約: 本稿では, 時間, 周波数, 振幅歪みをスペクトルの局所的リー群変換としてモデル化し, 変形音声の正規化手法を提案する。ニューラルネットワークは、合成的にワープされた健全な音声のみを使用して、フィールドを推論し、テスト時に逆を適用するように訓練されている。実際の病的言論では、システムは一貫した利益をもたらす: TORGO発話の挑戦に対する最大17ポイントのWER削減、WER分散の16%の減少、クリーンなCommonVoiceデータを劣化させることなく。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present a geometry-driven method for normalizing dysarthric speech by modeling time, frequency, and amplitude distortions as smooth, local Lie group transformations of spectrograms. Scalar fields generate these deformations via exponential maps, and a neural network is trained - using only synthetically warped healthy speech - to infer the fields and apply an approximate inverse at test time. We introduce a spontaneous-symmetry-breaking (SSB) potential that encourages the model to discover non-trivial field configurations. On real pathological speech, the system delivers consistent gains: up to 17 percentage-point WER reduction on challenging TORGO utterances and a 16 percent drop in WER variance, with no degradation on clean CommonVoice data. Character and phoneme error rates improve in parallel, confirming linguistic relevance. Our results demonstrate that geometrically structured warping provides consistent, zero-shot robustness gains for dysarthric ASR.
Abstract（参考訳）: 本稿では, 時間, 周波数, 振幅歪みをスムーズな局所リー群変換としてモデル化し, 変形音声を正規化するための幾何学的手法を提案する。スカラーフィールドは指数写像を介してこれらの変形を生成し、ニューラルネットワークは、合成的に歪んだ健全な音声のみを使用して、フィールドを推論し、テスト時に近似逆数を適用するように訓練される。本研究では,非自明な場構成の発見を促す自然対称性破れ(SSB)ポテンシャルを導入する。実際の病的言論では、システムは一貫した利益をもたらす: TORGO発話の挑戦に対する最大17ポイントのWER削減、WER分散の16%の減少、クリーンなCommonVoiceデータを劣化させることなく。文字と音素の誤り率は並列的に改善し、言語的関連性を確認する。以上の結果から, 外科的ASRに対して, 幾何的構造が一貫したゼロショットロバスト性向上をもたらすことが示唆された。

関連論文リスト

DARS: Dysarthria-Aware Rhythm-Style Synthesis for ASR Enhancement [17.57351491665082]
そこで我々は,Matcha-TTS アーキテクチャをベースとした調律対応リズムスタイル合成フレームワーク DARS を提案する。 DARSは多段階のリズム予測器を、通常音声と変形音声のコントラスト的嗜好に最適化し、また、変形性スタイルの条件整合機構を組み込んでいる。 TORGOデータセットの実験では、DARSが4.29の平均ケプストラム歪み(MCD)を達成し、実際の変形音声を密接に近似している。
論文参考訳（メタデータ） (2026-03-02T02:05:14Z)
HAAF: Hierarchical Adaptation and Alignment of Foundation Models for Few-Shot Pathology Anomaly Detection [10.649984141835189]
階層型適応アライメントフレームワーク(HAAF)を提案する。中心となるのは、シーケンシャルなキャリブレーション順序を強制するクロスレベルスケールアライメント機構である。デュアルブランチ推論戦略は、セマンティックスコアと幾何学的プロトタイプを統合して、数ショット設定での安定性を確保する。
論文参考訳（メタデータ） (2026-01-24T10:31:21Z)
VIKING: Deep variational inference with stochastic projections [48.946143517489496]
変分平均場近似は、現代の過度にパラメータ化されたディープニューラルネットワークと競合する傾向がある。パラメータ空間の2つの独立線型部分空間を考える単純な変分族を提案する。これにより、オーバーパラメトリゼーションを反映した、完全に相関した近似後部を構築することができる。
論文参考訳（メタデータ） (2025-10-27T15:38:35Z)
Hallucination Benchmark for Speech Foundation Models [33.92968426403491]
自動音声認識(ASR)システムにおける幻覚とは、基礎となる音響入力(すなわち、音声信号)とは全く無関係な神経性ASRモデルによって生成される流動的でコヒーレントな転写を指す。この明らかな一貫性は、その後の処理段階を誤解させ、特に医療や法のような重要な領域において重大なリスクをもたらす可能性がある。本稿では,ASRにおける幻覚現象を,語彙,音声,形態,意味の4つの相補軸に沿って体系的に分類し,定量化する最初のベンチマークフレームワークであるSHALLOWを紹介する。
論文参考訳（メタデータ） (2025-10-18T16:26:16Z)
Improved Intelligibility of Dysarthric Speech using Conditional Flow Matching [0.0]
失語症(Dysarthria)は、言語機能障害の1つ。これにより、頑健な顎関節-正則音声変換技術の開発が必要とされる。
論文参考訳（メタデータ） (2025-06-19T08:24:17Z)
Unsupervised Rhythm and Voice Conversion to Improve ASR on Dysarthric Speech [17.105048387175817]
変形性関節症に対する音声変換法について検討し,ASRの性能改善について検討した。音節に基づくリズムモデリング手法を導入することにより、リズム・アンド・ボイス(RnV)変換フレームワークを拡張した。 Torgoコーパスの実験により,LF-MMIが単語誤り率の大幅な低減を実現していることが明らかになった。
論文参考訳（メタデータ） (2025-06-02T12:57:36Z)
VINP: Variational Bayesian Inference with Neural Speech Prior for Joint ASR-Effective Speech Dereverberation and Blind RIR Identification [9.726628816336651]
本研究は, ニューラルスピーチ先行(VINP)を用いた変分ベイズ推論フレームワークを提案する。単チャンネル音声の発声実験では、人間の知覚に関連するほとんどの指標において、VINPが高度なレベルに達することが示されている。
論文参考訳（メタデータ） (2025-02-11T02:54:28Z)
Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR [18.701864254184308]
自己教師付き音声表現に基づくリズムと音声の変換手法を組み合わせることで、典型的な音声に変形をマッピングする。提案したリズム変換は, より重篤な変形症例を有するトーゴコーパスの話者のパフォーマンスを特に向上させることが判明した。
論文参考訳（メタデータ） (2025-01-17T15:39:21Z)
Spelling Correction through Rewriting of Non-Autoregressive ASR Lattices [8.77712061194924]
本稿では,トランスフォーマーを用いたCTCモデルにより生成されたワードピース格子を書き換える有限状態トランスデューサ(FST)手法を提案する。本アルゴリズムは,単語から音素への変換を直接行うため,明示的な単語表現を避けることができる。文脈関連エンティティを用いたテストにおいて, 文誤り率(SER)の15.2%の相対的低減を実現した。
論文参考訳（メタデータ） (2024-09-24T21:42:25Z)
Relative Representations: Topological and Geometric Perspectives [53.88896255693922]
相対表現はゼロショットモデルの縫合に対する確立されたアプローチである。相対変換において正規化手順を導入し、非等方的再スケーリングや置換に不変となる。第二に、クラス内のクラスタリングを促進するトポロジカル正規化損失である、微調整された相対表現におけるトポロジカルデシフィケーションの展開を提案する。
論文参考訳（メタデータ） (2024-09-17T08:09:22Z)
Enhancing dysarthria speech feature representation with empirical mode decomposition and Walsh-Hadamard transform [8.032273183441921]
We propose a feature enhancement for dysarthria speech called WHFEMD。実験モード分解(EMD)と高速ウォルシュ・アダマール変換(FWHT)を組み合わせて特徴を増強する。
論文参考訳（メタデータ） (2023-12-30T13:25:26Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文参考訳（メタデータ） (2023-09-27T09:27:03Z)
Score-based Causal Representation Learning with Interventions [54.735484409244386]
本稿では,潜在因果変数を間接的に観察する際の因果表現学習問題について検討する。目的は、 (i) 未知の線形変換(スケーリングまで)を回復し、 (ii) 潜在変数の下の有向非巡回グラフ(DAG)を決定することである。
論文参考訳（メタデータ） (2023-01-19T18:39:48Z)
Learning and controlling the source-filter representation of speech with a variational autoencoder [23.05989605017053]
音声処理において、音源フィルタモデルは、音声信号はいくつかの独立的かつ物理的に有意な連続潜伏因子から生成されるとみなす。本稿では,潜在部分空間内の音源-フィルタ音声要素を高精度かつ独立に制御する手法を提案する。テキストや人ラベルデータなどの追加情報を必要としないため、音声スペクトログラムの深い生成モデルが得られる。
論文参考訳（メタデータ） (2022-04-14T16:13:06Z)
Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文参考訳（メタデータ） (2022-03-19T08:47:18Z)
Discretization and Re-synthesis: an alternative method to solve the Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文参考訳（メタデータ） (2021-12-17T08:35:40Z)
Unsupervised Cross-Domain Speech-to-Speech Conversion with Time-Frequency Consistency [14.062850439230111]
本稿では,逆行訓練におけるスペクトルの整合性を促進する条件を提案する。 Librispeech corpus を用いた実験結果から,TF の整合性で訓練したモデルにより,音声から音声への変換の精度が向上することが示唆された。
論文参考訳（メタデータ） (2020-05-15T22:27:07Z)
Generating diverse and natural text-to-speech samples using a quantized fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文参考訳（メタデータ） (2020-02-06T12:35:50Z)
Transforming Spectrum and Prosody for Emotional Voice Conversion with Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文参考訳（メタデータ） (2020-02-01T12:36:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。