論文の概要: Robust Prediction of Punctuation and Truecasing for Medical ASR
- arxiv url: http://arxiv.org/abs/2007.02025v2
- Date: Sat, 11 Jul 2020 17:53:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 13:47:30.624641
- Title: Robust Prediction of Punctuation and Truecasing for Medical ASR
- Title(参考訳): 医療用ASRのゆらぎとTruecasingのロバスト予測
- Authors: Monica Sunkara, Srikanth Ronanki, Kalpit Dixit, Sravan Bodapati,
Katrin Kirchhoff
- Abstract要約: 本稿では,句読点と実測点の予測のための条件付き共同モデリングフレームワークを提案する。
また,医療領域データを用いた微調整型マスキング言語モデルによるドメイン・タスク特化手法を提案する。
- 参考スコア(独自算出の注目度): 18.08508027663331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) systems in the medical domain that focus
on transcribing clinical dictations and doctor-patient conversations often pose
many challenges due to the complexity of the domain. ASR output typically
undergoes automatic punctuation to enable users to speak naturally, without
having to vocalise awkward and explicit punctuation commands, such as "period",
"add comma" or "exclamation point", while truecasing enhances user readability
and improves the performance of downstream NLP tasks. This paper proposes a
conditional joint modeling framework for prediction of punctuation and
truecasing using pretrained masked language models such as BERT, BioBERT and
RoBERTa. We also present techniques for domain and task specific adaptation by
fine-tuning masked language models with medical domain data. Finally, we
improve the robustness of the model against common errors made in ASR by
performing data augmentation. Experiments performed on dictation and
conversational style corpora show that our proposed model achieves ~5% absolute
improvement on ground truth text and ~10% improvement on ASR outputs over
baseline models under F1 metric.
- Abstract(参考訳): 医療領域における自動音声認識システム (ASR) は, クリニカルディクテーションや医師と患者との会話の書き起こしに重点を置いており, ドメインの複雑さが原因で多くの課題が生じることが多い。
ASR出力は、通常、ユーザが" period"、"add comma"、"exclamation point"といった、ぎこちなく明示的な句読点コマンドを発声することなく、自然に話すことができるように自動句読点を行うが、 truecasingは、ユーザの可読性を向上し、下流のNLPタスクのパフォーマンスを向上させる。
本稿では,BERT,BioBERT,RoBERTaといった事前学習されたマスキング言語モデルを用いて,句読点と真偽の予測のための条件付き共同モデリングフレームワークを提案する。
また,医療領域データを用いた微調整マスキング言語モデルによるドメイン・タスク特化手法を提案する。
最後に、データ拡張を行うことにより、ASRにおける一般的なエラーに対するモデルの堅牢性を改善する。
予測と対話型コーパスを用いた実験により,提案したモデルでは,F1 の基準モデルよりも約5%,ASR の出力が約10%向上していることがわかった。
関連論文リスト
- Enhancing AAC Software for Dysarthric Speakers in e-Health Settings: An Evaluation Using TORGO [0.13108652488669734]
脳性麻痺 (CP) と筋萎縮性側索硬化症 (ALS) の患者は, 関節症に悩まされ, 変形性関節症, 非典型的発声パターンを呈する。
我々は、Whisper や Wav2vec2.0 のような最先端の音声認識(SOTA)技術が、訓練データがないために非定型話者を疎外することがわかった。
我々の研究は、SOTA ASRとドメイン固有のエラー訂正を活用することを目指している。
論文 参考訳(メタデータ) (2024-11-01T19:11:54Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - LibriSpeech-PC: Benchmark for Evaluation of Punctuation and
Capitalization Capabilities of end-to-end ASR Models [58.790604613878216]
我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。
このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
論文 参考訳(メタデータ) (2023-10-04T16:23:37Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Streaming Punctuation: A Novel Punctuation Technique Leveraging
Bidirectional Context for Continuous Speech Recognition [0.8670827427401333]
本稿では,動的デコードウィンドウを用いたASR出力の句読点や再句読点に対するストリーミング手法を提案する。
新しいシステムは過剰なセグメンテーションの問題に取り組み、セグメンテーションF0.5スコアを13.9%改善した。
論文 参考訳(メタデータ) (2023-01-10T07:07:20Z) - Using External Off-Policy Speech-To-Text Mappings in Contextual
End-To-End Automated Speech Recognition [19.489794740679024]
本稿では,外部知識の活用の可能性について検討する。
提案手法では,音声の音声埋め込みと意味的テキスト埋め込みを併用して,ASRに偏りを生じさせる。
LibiriSpeechと社内音声アシスタント/検索データセットの実験により、提案手法により、最大1KのGPU時間でドメイン適応時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-01-06T22:32:50Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。