論文の概要: Improving Readability for Automatic Speech Recognition Transcription
- arxiv url: http://arxiv.org/abs/2004.04438v1
- Date: Thu, 9 Apr 2020 09:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 02:45:09.753680
- Title: Improving Readability for Automatic Speech Recognition Transcription
- Title(参考訳): 音声認識転写の可読性向上
- Authors: Junwei Liao, Sefik Emre Eskimez, Liyang Lu, Yu Shi, Ming Gong, Linjun
Shou, Hong Qu, Michael Zeng
- Abstract要約: 我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
- 参考スコア(独自算出の注目度): 50.86019112545596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Automatic Speech Recognition (ASR) systems can achieve high
performance in terms of recognition accuracy. However, a perfectly accurate
transcript still can be challenging to read due to grammatical errors,
disfluency, and other errata common in spoken communication. Many downstream
tasks and human readers rely on the output of the ASR system; therefore, errors
introduced by the speaker and ASR system alike will be propagated to the next
task in the pipeline. In this work, we propose a novel NLP task called ASR
post-processing for readability (APR) that aims to transform the noisy ASR
output into a readable text for humans and downstream tasks while maintaining
the semantic meaning of the speaker. In addition, we describe a method to
address the lack of task-specific data by synthesizing examples for the APR
task using the datasets collected for Grammatical Error Correction (GEC)
followed by text-to-speech (TTS) and ASR. Furthermore, we propose metrics
borrowed from similar tasks to evaluate performance on the APR task. We compare
fine-tuned models based on several open-sourced and adapted pre-trained models
with the traditional pipeline method. Our results suggest that finetuned models
improve the performance on the APR task significantly, hinting at the potential
benefits of using APR systems. We hope that the read, understand, and rewrite
approach of our work can serve as a basis that many NLP tasks and human readers
can benefit from.
- Abstract(参考訳): 現代の音声認識(ASR)システムは、認識精度の点で高い性能を達成することができる。
しかし, 音声通信に共通する文法的誤り, 拡散性, その他のエラタにより, 完全に正確な書き起こしは読めない場合がある。
多くの下流タスクとヒューマンリーダーは、ASRシステムの出力に依存しているため、スピーカーとASRシステムによってもたらされたエラーは、パイプライン内の次のタスクに伝達される。
本稿では,話者の意味的意味を維持しつつ,人間と下流タスクの可読性テキストに変換することを目的とした,asr post-process for readability(apr)と呼ばれる新しいnlpタスクを提案する。
さらに,文法的誤り訂正(GEC)とテキスト音声合成(TTS)とASRで収集したデータセットを用いて,APRタスクの例を合成することにより,タスク固有のデータ不足に対処する手法について述べる。
さらに,APRタスクのパフォーマンスを評価するために,類似タスクから借用したメトリクスを提案する。
いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと従来のパイプライン法を比較した。
以上の結果から,微調整モデルによりAPRタスクの性能が大幅に向上し,APRシステムの利用による潜在的なメリットが示唆された。
私たちの仕事の読み書き、理解、書き直しのアプローチが、多くのnlpタスクと人間の読者が恩恵を受けられる基盤となることを願っています。
関連論文リスト
- Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - TokenVerse: Towards Unifying Speech and NLP Tasks via Transducer-based ASR [3.717584661565119]
TokenVerseは、複数のタスクを処理するように設計された単一のTransducerベースのモデルである。
ASRモデルトレーニング中にタスク固有のトークンを参照テキストに統合することで実現される。
実験の結果,提案手法は相対的なWERにおいて最大7.7%向上することがわかった。
論文 参考訳(メタデータ) (2024-07-05T11:54:38Z) - Using External Off-Policy Speech-To-Text Mappings in Contextual
End-To-End Automated Speech Recognition [19.489794740679024]
本稿では,外部知識の活用の可能性について検討する。
提案手法では,音声の音声埋め込みと意味的テキスト埋め込みを併用して,ASRに偏りを生じさせる。
LibiriSpeechと社内音声アシスタント/検索データセットの実験により、提案手法により、最大1KのGPU時間でドメイン適応時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-01-06T22:32:50Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Hallucination of speech recognition errors with sequence to sequence
learning [16.39332236910586]
プレーンテキストデータを使用して話し言葉理解やASRのためのシステムのトレーニングを行う場合、証明された戦略は、ASR出力が金の転写を与えるであろうものを幻覚することです。
本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。
これにより、ドメイン内ASRシステムの未確認データの転写からのエラーのリコール、およびドメイン外ASRシステムの非関連タスクからのオーディオの転写の以前の結果が改善されます。
論文 参考訳(メタデータ) (2021-03-23T02:09:39Z) - Generating Human Readable Transcript for Automatic Speech Recognition
with Pre-trained Language Model [18.26945997660616]
多くの下流のタスクと人間の読者は、ASRシステムの出力に依存しています。
本稿では,不正かつノイズの多いASR出力を可読テキストに変換することを目的としたASR後処理モデルを提案する。
論文 参考訳(メタデータ) (2021-02-22T15:45:50Z) - Knowledge Distillation for Improved Accuracy in Spoken Question
Answering [63.72278693825945]
我々は,音声文書や書面文書から知識蒸留を行うための訓練戦略を考案した。
我々の研究は、言語モデルから知識の抽出を監督信号として進めている。
実験により,本手法はSpken-SQuADデータセット上で,最先端の言語モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-21T15:18:01Z) - Contextualized Attention-based Knowledge Transfer for Spoken
Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。
本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。
Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:17:18Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。