論文の概要: Augmenting Automatic Speech Recognition Models with Disfluency Detection
- arxiv url: http://arxiv.org/abs/2409.10177v1
- Date: Mon, 16 Sep 2024 11:13:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 15:50:18.720187
- Title: Augmenting Automatic Speech Recognition Models with Disfluency Detection
- Title(参考訳): 拡散検出による音声認識モデルの拡張
- Authors: Robin Amann, Zhaolin Li, Barbara Bruno, Jan Niehues,
- Abstract要約: 音声の拡散は、会話や自発的な発話でよく起こる。
現在の研究は、主に、音声の正確な位置と持続時間を見越して、書き起こし中の不一致を検出することに焦点を当てている。
我々は,任意のASRモデルを拡張し,開集合不一致を検出するための推論のみのアプローチを提案する。
- 参考スコア(独自算出の注目度): 12.45703869323415
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech disfluency commonly occurs in conversational and spontaneous speech. However, standard Automatic Speech Recognition (ASR) models struggle to accurately recognize these disfluencies because they are typically trained on fluent transcripts. Current research mainly focuses on detecting disfluencies within transcripts, overlooking their exact location and duration in the speech. Additionally, previous work often requires model fine-tuning and addresses limited types of disfluencies. In this work, we present an inference-only approach to augment any ASR model with the ability to detect open-set disfluencies. We first demonstrate that ASR models have difficulty transcribing speech disfluencies. Next, this work proposes a modified Connectionist Temporal Classification(CTC)-based forced alignment algorithm from \cite{kurzinger2020ctc} to predict word-level timestamps while effectively capturing disfluent speech. Additionally, we develop a model to classify alignment gaps between timestamps as either containing disfluent speech or silence. This model achieves an accuracy of 81.62\% and an F1-score of 80.07\%. We test the augmentation pipeline of alignment gap detection and classification on a disfluent dataset. Our results show that we captured 74.13\% of the words that were initially missed by the transcription, demonstrating the potential of this pipeline for downstream tasks.
- Abstract(参考訳): 音声の拡散は、会話や自発的な発話でよく起こる。
しかし、標準的な自動音声認識(ASR)モデルは、典型的には流用文字で訓練されているため、これらの不一致を正確に認識するのに苦労する。
現在の研究は、主に、音声の正確な位置と持続時間を見越して、書き起こし中の不一致を検出することに焦点を当てている。
加えて、以前の作業ではモデル微調整がしばしば必要であり、限られた種類の分散に対処する。
本研究では,任意のASRモデルを拡張するための推論のみのアプローチを提案する。
まず、ASRモデルでは、音声不一致の書き起こしが難しいことを実証する。
次に, 単語レベルのタイムスタンプを効果的に把握しつつ, 単語レベルのタイムスタンプを予測するために, 改良されたコネクショニスト時間分類(CTC)に基づく強制アライメントアルゴリズムを提案する。
さらに、タイムスタンプ間のアライメントギャップを、不適切な音声や沈黙を含むものとして分類するモデルを開発する。
このモデルは精度81.62\%、F1スコア80.07\%を達成する。
分散データセット上でアライメントギャップの検出と分類の強化パイプラインをテストする。
以上の結果から,最初に書き起こしに失敗した単語の74.13 %を抽出し,下流タスクに対するパイプラインの可能性を示した。
関連論文リスト
- Time and Tokens: Benchmarking End-to-End Speech Dysfluency Detection [6.82179836198974]
音声のディフルエンシモデリングは、繰り返し、ブロック、挿入、置換、削除などの音声のディフルエンシを検出するタスクである。
本研究では,この問題を新しい視点から再考する: 障害のトークン化と検出問題をトークンに基づく自動音声認識問題としてモデル化する。
規則に基づく音声とテキストのディフルエンシシミュレータを提案し、VCTKトケンを開発し、その後、Whisperのようなセク2seqアーキテクチャを開発し、良好な性能を持つ新しいベンチマークを構築する。
論文 参考訳(メタデータ) (2024-09-20T15:35:32Z) - YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection [5.42845980208244]
YOLO-Stutterは、時間的精度でディファレンシを検出する最初のエンドツーエンド手法である。
VCTK-StutterとVCTK-TTSは、繰り返し、ブロック、欠落、置換、延長といった自然な発声障害をシミュレートする。
論文 参考訳(メタデータ) (2024-08-27T11:31:12Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Automatic Disfluency Detection from Untranscribed Speech [25.534535098405602]
発声は、高頻度の不一致を特徴とする発声障害である。
自動逆流検出は、不安定な個人に対する治療計画を立案するのに役立ちます。
本研究では,フレームレベルの自動ディフルエンシ検出と分類のための言語,音響,マルチモーダル手法について検討する。
論文 参考訳(メタデータ) (2023-11-01T21:36:39Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Weakly-supervised forced alignment of disfluent speech using
phoneme-level modeling [10.283092375534311]
重み付き有限状態変換器を用いたアライメントグラフの構成法を提案する。
提案手法は, 強制アライメントのための音声不一致の動詞的書き起こしの必要性を軽減する。
TIMITテストセットとUCLASSデータセットの劣化バージョンについて評価したところ,大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-05-30T09:57:36Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - End-to-End Speech Recognition and Disfluency Removal [15.910282983166024]
本稿では,エンド・ツー・エンド音声認識とディフルエンシ除去の課題について検討する。
エンド・ツー・エンドのモデルでは、フロート・トランスクリプトを直接生成できることが示されている。
統合型ASRモデルと非フルエンシモデルの評価に使用できる2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2020-09-22T03:11:37Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。