論文の概要: Seamless Dysfluent Speech Text Alignment for Disordered Speech Analysis
- arxiv url: http://arxiv.org/abs/2506.12073v1
- Date: Thu, 05 Jun 2025 03:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.625606
- Title: Seamless Dysfluent Speech Text Alignment for Disordered Speech Analysis
- Title(参考訳): 障害音声分析のためのシームレス・インフルエンス音声テキストアライメント
- Authors: Zongli Ye, Jiachen Lian, Xuanru Zhou, Jinming Zhang, Haodong Li, Shuhe Li, Chenxu Guo, Anaisha Das, Peter Park, Zoe Ezzes, Jet Vonk, Brittany Morin, Rian Bogley, Lisa Wauters, Zachary Miller, Maria Gorno-Tempini, Gopala Anumanchipalli,
- Abstract要約: 本稿では,難読テキストと音声テキストアライメントのための新しいアプローチであるNeural LCSを提案する。
提案手法を大規模シミュレーションデータセット上で評価する。
以上の結果から,音声障害の診断・解析の自動化システムを強化するニューラルLCSの可能性が示された。
- 参考スコア(独自算出の注目度): 8.5693791544413
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurate alignment of dysfluent speech with intended text is crucial for automating the diagnosis of neurodegenerative speech disorders. Traditional methods often fail to model phoneme similarities effectively, limiting their performance. In this work, we propose Neural LCS, a novel approach for dysfluent text-text and speech-text alignment. Neural LCS addresses key challenges, including partial alignment and context-aware similarity mapping, by leveraging robust phoneme-level modeling. We evaluate our method on a large-scale simulated dataset, generated using advanced data simulation techniques, and real PPA data. Neural LCS significantly outperforms state-of-the-art models in both alignment accuracy and dysfluent speech segmentation. Our results demonstrate the potential of Neural LCS to enhance automated systems for diagnosing and analyzing speech disorders, offering a more accurate and linguistically grounded solution for dysfluent speech alignment.
- Abstract(参考訳): 神経変性性発声障害の診断を自動化するためには, 難読音声と意図したテキストの正確なアライメントが不可欠である。
従来の手法は音素の類似性を効果的にモデル化することができず、性能を制限している。
本研究では,難易度の高いテキスト・テキスト・アライメントと音声・テキストアライメントのための新しいアプローチであるNeural LCSを提案する。
ニューラルLCSは、ロバストな音素レベルモデリングを活用することで、部分アライメントや文脈認識の類似性マッピングなどの重要な課題に対処する。
提案手法は,高度なデータシミュレーション手法と実PPAデータを用いて生成された大規模シミュレーションデータセット上で評価する。
ニューラルLCSは、アライメント精度とディグレート音声セグメンテーションの両方において、最先端のモデルよりも大幅に優れている。
以上の結果から,音声障害の診断・解析の自動化システムを強化し,より正確で言語学的に根ざした音声アライメントソリューションを提供することが示唆された。
関連論文リスト
- Analysis and Evaluation of Synthetic Data Generation in Speech Dysfluency Detection [5.95376852691752]
発声障害の検出は臨床診断と言語評価に不可欠である。
このデータセットは、単語レベルと音素レベルの両方にまたがる11のディスフルエンシカテゴリをキャプチャする。
このリソースを基盤として、エンド・ツー・エンドのディフルエンシ検出フレームワークを改善します。
論文 参考訳(メタデータ) (2025-05-28T06:52:10Z) - Dysfluent WFST: A Framework for Zero-Shot Speech Dysfluency Transcription and Detection [5.512072120303165]
Dysfluent-WFSTはゼロショットデコーダで、音素を同時に書き起こし、逆流を検出する。
模擬および実音声データにおける音素誤り率とディフルエンシ検出の両面での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-22T08:02:50Z) - Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。
また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。
実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文 参考訳(メタデータ) (2025-01-29T18:58:48Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection [5.42845980208244]
YOLO-Stutterは、時間的精度でディファレンシを検出する最初のエンドツーエンド手法である。
VCTK-StutterとVCTK-TTSは、繰り返し、ブロック、欠落、置換、延長といった自然な発声障害をシミュレートする。
論文 参考訳(メタデータ) (2024-08-27T11:31:12Z) - Towards Hierarchical Spoken Language Dysfluency Modeling [8.45042473491412]
言語障害モデリングは、言語療法と言語学習の両方においてボトルネックとなる。
UDMの階層的拡張であるH-UDM(Hierarchical Unconstrained Disfluency Modeling)アプローチを提案する。
実験結果から,提案手法の有効性と信頼性が明らかとなった。
論文 参考訳(メタデータ) (2024-01-18T14:33:01Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Neural Data-to-Text Generation via Jointly Learning the Segmentation and
Correspondence [48.765579605145454]
対象のテキストを断片単位に明示的に分割し,それらのデータ対応と整合させることを提案する。
結果として生じるアーキテクチャは、ニューラルアテンションモデルと同じ表現力を維持している。
E2EとWebNLGのベンチマークでは、提案モデルがニューラルアテンションよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2020-05-03T14:28:28Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。