Fugu-MT 論文翻訳(概要): Inappropriate Pause Detection In Dysarthric Speech Using Large-Scale Speech Recognition

論文の概要: Inappropriate Pause Detection In Dysarthric Speech Using Large-Scale Speech Recognition

arxiv url: http://arxiv.org/abs/2402.18923v1
Date: Thu, 29 Feb 2024 07:29:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 15:43:09.832738
Title: Inappropriate Pause Detection In Dysarthric Speech Using Large-Scale Speech Recognition
Title（参考訳）: 大規模音声認識による不適切なポーズ検出
Authors: Jeehyun Lee, Yerin Choi, Tae-Jin Song, Myoung-Wan Koo
Abstract要約: 不適切な停止は重度評価や言語療法において重要な指標である。変形性音声における不適切なポーズ検出のための大規模音声認識モデルを提案する。本実験により, 変形性関節症音声における不適切なポーズを, ベースラインよりもよく検出できることが示唆された。
参考スコア（独自算出の注目度）: 2.7309692684728617
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Dysarthria, a common issue among stroke patients, severely impacts speech intelligibility. Inappropriate pauses are crucial indicators in severity assessment and speech-language therapy. We propose to extend a large-scale speech recognition model for inappropriate pause detection in dysarthric speech. To this end, we propose task design, labeling strategy, and a speech recognition model with an inappropriate pause prediction layer. First, we treat pause detection as speech recognition, using an automatic speech recognition (ASR) model to convert speech into text with pause tags. According to the newly designed task, we label pause locations at the text level and their appropriateness. We collaborate with speech-language pathologists to establish labeling criteria, ensuring high-quality annotated data. Finally, we extend the ASR model with an inappropriate pause prediction layer for end-to-end inappropriate pause detection. Moreover, we propose a task-tailored metric for evaluating inappropriate pause detection independent of ASR performance. Our experiments show that the proposed method better detects inappropriate pauses in dysarthric speech than baselines. (Inappropriate Pause Error Rate: 14.47%)
Abstract（参考訳）: 脳卒中患者の共通の問題であるDysarthriaは、音声の明瞭さに深刻な影響を及ぼす。不適切な停止は重度評価や言語療法において重要な指標である。本稿では,不適切なポーズ検出のための大規模音声認識モデルの拡張を提案する。そこで本研究では,不適切な停止予測層を有するタスク設計,ラベル付け戦略,音声認識モデルを提案する。まず,自動音声認識(asr)モデルを用いてポーズ検出を音声認識として扱い,ポーズタグ付きテキストに変換する。新たに設計されたタスクによると、テキストレベルにおける停止位置とその適切さをラベル付けする。言語病理学者と協働してラベル付け基準を定め,高品質な注釈データを確保する。最後に、終端不適切な停止検出のための不適切な停止予測層を用いて、ASRモデルを拡張する。さらに,asr性能によらず不適切な停止検出を評価するためのタスク調整指標を提案する。提案手法は,ベースラインよりも不適切なポーズを検出できることを示す。 (不適切なポーズエラー率:14.47%)

関連論文リスト

WESR: Scaling and Evaluating Word-level Event-Speech Recognition [59.21814194620928]
音声は言語情報だけでなく、笑ったり泣いたりするような豊富な非言語的な音声イベントも伝達する。我々は,21の発声イベントの分類を改良し,個別(スタンドアローン)と連続(音声と混合)に分類した。改良された分類法に基づくWESR-Benchは,新しい位置認識プロトコルを備えた専門家アノテート評価セット(900以上の発話)である。
論文参考訳（メタデータ） (2026-01-08T02:23:21Z)
MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-10-01T04:32:37Z)
Variational Low-Rank Adaptation for Personalized Impaired Speech Recognition [8.838919369202525]
先天性障害による音声障害は,音声認識システムにおいて大きな課題となる。 Whisperのような最先端のASRモデルは、トレーニングデータの可用性の制限と高い音響可変性のために、まだ非ノルマ的音声に苦慮している。本研究では,データ効率のよい微調整のためのベイジアン低ランク適応に基づく新しいASRパーソナライズ手法を提案する。
論文参考訳（メタデータ） (2025-09-23T13:44:58Z)
Adapting Foundation Speech Recognition Models to Impaired Speech: A Semantic Re-chaining Approach for Personalization of German Speech [0.562479170374811]
脳性麻痺や遺伝性障害などの症状による音声障害は、自動音声認識システムに重大な課題をもたらす。本稿では,ASRモデルをパーソナライズする実用的で軽量なパイプラインを提案し,単語の選択を形式化し,セマンティック・コヒーレンスによる音声障害者データセットを充実させる。提案手法は,非典型的音声パターンを持つ個人に対するコミュニケーション障壁を低減する可能性を示した。
論文参考訳（メタデータ） (2025-06-23T15:30:50Z)
Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR [18.701864254184308]
自己教師付き音声表現に基づくリズムと音声の変換手法を組み合わせることで、典型的な音声に変形をマッピングする。提案したリズム変換は, より重篤な変形症例を有するトーゴコーパスの話者のパフォーマンスを特に向上させることが判明した。
論文参考訳（メタデータ） (2025-01-17T15:39:21Z)
Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文参考訳（メタデータ） (2024-09-30T06:29:58Z)
Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文参考訳（メタデータ） (2024-09-16T20:18:20Z)
STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。 Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文参考訳（メタデータ） (2024-09-04T02:20:59Z)
Infusing Acoustic Pause Context into Text-Based Dementia Assessment [7.8642589679025034]
本研究は, 認知障害のない被験者の認知状態, 軽度認知障害, およびアルツハイマー認知症を, 臨床的評価に基づいて区別するために, 言語モデルにおける停止強調文字の使用について検討した。この性能は、ドイツ語の言語頻度テストと画像記述テストの実験を通じて評価され、異なる音声生成コンテキストにおけるモデルの有効性を比較した。
論文参考訳（メタデータ） (2024-08-27T16:44:41Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
End-to-end Speech-to-Punctuated-Text Recognition [23.44236710364419]
句読点は、音声認識結果の可読性にとって重要である。従来の自動音声認識システムは句読点を生成しない。本稿では,音声を入力とし,句読解テキストを出力するエンドツーエンドモデルを提案する。
論文参考訳（メタデータ） (2022-07-07T08:58:01Z)
Speaker Identity Preservation in Dysarthric Speech Reconstruction by Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。話者識別に最適化された話者エンコーダ (SE) について検討した。我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文参考訳（メタデータ） (2022-02-18T08:59:36Z)
Towards Interpretability of Speech Pause in Dementia Detection using Adversarial Learning [4.19159477763309]
発声停止は認知症検出に有効なバイオマーカーである。近年のディープラーニングモデルは、高精度な認知症検出を実現するために、音声停止を利用した。対人学習を用いた認知症感受性停止の位置と長さについて検討する。
論文参考訳（メタデータ） (2021-11-14T21:26:18Z)
Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文参考訳（メタデータ） (2021-03-12T10:10:13Z)
End-to-End Speech Recognition and Disfluency Removal [15.910282983166024]
本稿では,エンド・ツー・エンド音声認識とディフルエンシ除去の課題について検討する。エンド・ツー・エンドのモデルでは、フロート・トランスクリプトを直接生成できることが示されている。統合型ASRモデルと非フルエンシモデルの評価に使用できる2つの新しい指標を提案する。
論文参考訳（メタデータ） (2020-09-22T03:11:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。