論文の概要: End-to-End Speech Recognition and Disfluency Removal
- arxiv url: http://arxiv.org/abs/2009.10298v3
- Date: Mon, 28 Sep 2020 23:07:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 21:49:04.434278
- Title: End-to-End Speech Recognition and Disfluency Removal
- Title(参考訳): エンドツーエンド音声認識と拡散除去
- Authors: Paria Jamshid Lou and Mark Johnson
- Abstract要約: 本稿では,エンド・ツー・エンド音声認識とディフルエンシ除去の課題について検討する。
エンド・ツー・エンドのモデルでは、フロート・トランスクリプトを直接生成できることが示されている。
統合型ASRモデルと非フルエンシモデルの評価に使用できる2つの新しい指標を提案する。
- 参考スコア(独自算出の注目度): 15.910282983166024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disfluency detection is usually an intermediate step between an automatic
speech recognition (ASR) system and a downstream task. By contrast, this paper
aims to investigate the task of end-to-end speech recognition and disfluency
removal. We specifically explore whether it is possible to train an ASR model
to directly map disfluent speech into fluent transcripts, without relying on a
separate disfluency detection model. We show that end-to-end models do learn to
directly generate fluent transcripts; however, their performance is slightly
worse than a baseline pipeline approach consisting of an ASR system and a
disfluency detection model. We also propose two new metrics that can be used
for evaluating integrated ASR and disfluency models. The findings of this paper
can serve as a benchmark for further research on the task of end-to-end speech
recognition and disfluency removal in the future.
- Abstract(参考訳): 分散検出は通常、自動音声認識(asr)システムと下流タスクの間の中間のステップである。
対照的に,本研究の目的は,エンドツーエンド音声認識と不整合除去の課題を検討することである。
具体的には、別個の拡散検出モデルに頼ることなく、ASRモデルを用いて非流布音声を直接流布文字にマッピングできるかどうかについて検討する。
エンド・ツー・エンドのモデルでは,フロート・トランスクリプトを直接生成できることが示されているが,その性能は,ASRシステムとディフルエンシ検出モデルからなるベースライン・パイプライン・アプローチよりも若干劣っている。
また,統合型asr と disfluency モデルの評価に使用できる2つの新しい指標を提案する。
本研究は,今後,エンド・ツー・エンドの音声認識と拡散除去の課題について,さらなる研究を行うためのベンチマークとなる。
関連論文リスト
- Augmenting Automatic Speech Recognition Models with Disfluency Detection [12.45703869323415]
音声の拡散は、会話や自発的な発話でよく起こる。
現在の研究は、主に、音声の正確な位置と持続時間を見越して、書き起こし中の不一致を検出することに焦点を当てている。
我々は,任意のASRモデルを拡張し,開集合不一致を検出するための推論のみのアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-16T11:13:14Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Automatic Disfluency Detection from Untranscribed Speech [25.534535098405602]
発声は、高頻度の不一致を特徴とする発声障害である。
自動逆流検出は、不安定な個人に対する治療計画を立案するのに役立ちます。
本研究では,フレームレベルの自動ディフルエンシ検出と分類のための言語,音響,マルチモーダル手法について検討する。
論文 参考訳(メタデータ) (2023-11-01T21:36:39Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - Streaming Joint Speech Recognition and Disfluency Detection [30.018034246393725]
音声認識と拡散検出を共同で解くトランスフォーマーベースのエンコーダデコーダモデルを提案する。
パイプラインアプローチと比較して、ジョイントモデルは、認識エラーに対して拡散検出を堅牢にする音響情報を利用することができる。
提案したジョイントモデルでは,BERTベースのパイプラインアプローチよりも精度とレイテンシが優れていた。
論文 参考訳(メタデータ) (2022-11-16T07:34:20Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z) - Auxiliary Sequence Labeling Tasks for Disfluency Detection [6.460424516393765]
本稿では,NERとPOSを補助的シーケンスラベリング(SL)タスクとして用い,不規則検出のための手法を提案する。
本稿では, 副SLタスクを用いた拡散検出モデルのトレーニングにより, 拡散検出におけるFスコアの向上が期待できることを示す。
広範に使われている英語スイッチボードデータセットによる実験結果から,本手法は拡散検出における従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-10-24T02:51:17Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。