Fugu-MT 論文翻訳(概要): Exploring Generative Error Correction for Dysarthric Speech Recognition

論文の概要: Exploring Generative Error Correction for Dysarthric Speech Recognition

arxiv url: http://arxiv.org/abs/2505.20163v1
Date: Mon, 26 May 2025 16:06:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 09:38:56.649914
Title: Exploring Generative Error Correction for Dysarthric Speech Recognition
Title（参考訳）: 変形性音声認識のための生成誤差補正の探索
Authors: Moreno La Quatra, Alkis Koudounas, Valerio Mario Salerno, Sabato Marco Siniscalchi,
Abstract要約: 本稿では,InterSPEECH 2025における音声アクセシビリティ・プロジェクト・チャレンジのための2段階フレームワークを提案する。モデルスケールとトレーニング戦略の異なる構成を評価し、特定の仮説選択を取り入れて転写精度を向上させる。変形性音声認識における音響モデルと言語モデリングの相補的役割について考察する。
参考スコア（独自算出の注目度）: 12.584296717901116
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Despite the remarkable progress in end-to-end Automatic Speech Recognition (ASR) engines, accurately transcribing dysarthric speech remains a major challenge. In this work, we proposed a two-stage framework for the Speech Accessibility Project Challenge at INTERSPEECH 2025, which combines cutting-edge speech recognition models with LLM-based generative error correction (GER). We assess different configurations of model scales and training strategies, incorporating specific hypothesis selection to improve transcription accuracy. Experiments on the Speech Accessibility Project dataset demonstrate the strength of our approach on structured and spontaneous speech, while highlighting challenges in single-word recognition. Through comprehensive analysis, we provide insights into the complementary roles of acoustic and linguistic modeling in dysarthric speech recognition
Abstract（参考訳）: エンドツーエンド自動音声認識(ASR)エンジンの顕著な進歩にもかかわらず、変形性音声を正確に転写することは大きな課題である。本研究では, 最先端音声認識モデルとLLMに基づく生成誤り訂正(GER)を組み合わせた, InterSPEECH 2025 における音声アクセシビリティプロジェクトチャレンジのための2段階フレームワークを提案する。モデルスケールとトレーニング戦略の異なる構成を評価し、特定の仮説選択を取り入れて転写精度を向上させる。音声アクセシビリティープロジェクトデータセットの実験は、構造化された、自発的な音声に対する我々のアプローチの強みを実証し、一方、単語認識における課題を強調した。包括的分析を通して、変形性音声認識における音響的・言語的モデリングの相補的役割に関する洞察を提供する。

関連論文リスト

Prototype-Based Disentanglement for Controllable Dysarthric Speech Synthesis [2.411338616884766]
変形性音声は、高い変動性とラベル付きデータに制限がある。現在のアプローチは、合成データ拡張や音声再構成に依存している。本稿では,プロトタイプベースのディスアングルメント TTS フレームワーク ProtoDisent-TTS を提案する。
論文参考訳（メタデータ） (2026-02-09T14:14:51Z)
DELULU: Discriminative Embedding Learning Using Latent Units for Speaker-Aware Self-Supervised Speech Foundational Model [65.93900011975238]
DELULUは、話者を意識した、検証、ダイアリゼーション、プロファイリングのための基礎モデルである。マスク付き予測と妄想を組み合わせ、堅牢性と一般化をさらに強化する2つの目的を用いて訓練される。以上の結果から,DELULUは話者認識音声処理の強力なユニバーサルエンコーダであり,タスク固有の微調整がなくても優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2025-10-20T15:35:55Z)
Linguistic and Audio Embedding-Based Machine Learning for Alzheimer's Dementia and Mild Cognitive Impairment Detection: Insights from the PROCESS Challenge [0.0]
音声は、音響的次元と言語的次元の両方を包含し、認知の低下に対して有望な非侵襲的バイオマーカーを提供する。本稿では,自然発声音声からの音声埋め込みと言語的特徴を両立させるプロシージャチャレンジのための機械学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-02T06:54:55Z)
Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。 i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文参考訳（メタデータ） (2025-08-28T06:51:42Z)
AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。 AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文参考訳（メタデータ） (2025-08-04T07:47:38Z)
Adapting Foundation Speech Recognition Models to Impaired Speech: A Semantic Re-chaining Approach for Personalization of German Speech [0.562479170374811]
脳性麻痺や遺伝性障害などの症状による音声障害は、自動音声認識システムに重大な課題をもたらす。本稿では,ASRモデルをパーソナライズする実用的で軽量なパイプラインを提案し,単語の選択を形式化し,セマンティック・コヒーレンスによる音声障害者データセットを充実させる。提案手法は,非典型的音声パターンを持つ個人に対するコミュニケーション障壁を低減する可能性を示した。
論文参考訳（メタデータ） (2025-06-23T15:30:50Z)
A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions [3.505838221203969]
与えられた熟練度の多様な応答を生成するための新しい訓練パラダイムを提案する。応答を話者対応音声合成により合成音声に変換する。マルチモーダルな大言語モデルは、整列したテキスト特徴と音声信号を統合して、習熟度を直接予測する。
論文参考訳（メタデータ） (2025-06-04T15:42:53Z)
Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文参考訳（メタデータ） (2024-09-15T16:32:49Z)
Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文参考訳（メタデータ） (2023-10-14T23:16:05Z)
High-Quality Automatic Voice Over with Accurate Alignment: Supervision through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文参考訳（メタデータ） (2023-06-29T15:02:22Z)
A New Benchmark of Aphasia Speech Recognition and Detection Based on E-Branchformer and Multi-task Learning [29.916793641951507]
本稿では,最新の音声認識技術を用いた失語症音声認識のための新しいベンチマークを提案する。 CTC/Attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し、両方のタスクを同時に実行する。当システムでは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と相対的なWER低下率(1%)を達成している。
論文参考訳（メタデータ） (2023-05-19T15:10:36Z)
Pre-Finetuning for Few-Shot Emotional Speech Recognition [20.894029832911617]
我々は話者適応を数発の学習問題と見なしている。そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文参考訳（メタデータ） (2023-02-24T22:38:54Z)
Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文参考訳（メタデータ） (2022-01-15T13:02:40Z)
A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。変形性音声の質は統計VCによって大幅に改善される。しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文参考訳（メタデータ） (2021-06-02T18:41:03Z)
Brain Signals to Rescue Aphasia, Apraxia and Dysarthria Speech Recognition [14.544989316741091]
本稿では,失語症,失語症,構音障害に対する自動音声認識システムの性能を向上させるための深層学習に基づくアルゴリズムを提案する。分離音声認識タスクにおいて,テスト時間中のデコード性能が50%以上向上することを示す。その結果, 失語症, 失語症, 構音障害から回復した脳卒中患者の実時間ロバスト音声補綴物の設計に非侵襲的神経信号を利用する可能性を示す第一歩が示された。
論文参考訳（メタデータ） (2021-02-28T03:27:02Z)
Learning Explicit Prosody Models and Deep Speaker Embeddings for Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文参考訳（メタデータ） (2020-11-03T13:08:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。