論文の概要: Building an ASR Error Robust Spoken Virtual Patient System in a Highly
Class-Imbalanced Scenario Without Speech Data
- arxiv url: http://arxiv.org/abs/2204.05183v1
- Date: Mon, 11 Apr 2022 15:13:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 20:22:27.410948
- Title: Building an ASR Error Robust Spoken Virtual Patient System in a Highly
Class-Imbalanced Scenario Without Speech Data
- Title(参考訳): 音声データのない高度不均衡シナリオにおけるASRエラーロバスト音声仮想患者システムの構築
- Authors: Vishal Sunder, Prashant Serai, Eric Fosler-Lussier
- Abstract要約: 仮想患者(VP)は、医学生に患者の歴史を学ばせるための強力なツールである。
提案手法は, 単語誤り率設定におけるVP意図分類タスクに対して, 強いベースラインよりも大幅に改善されたことを示す。
- 参考スコア(独自算出の注目度): 20.357369521268417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A Virtual Patient (VP) is a powerful tool for training medical students to
take patient histories, where responding to a diverse set of spoken questions
is essential to simulate natural conversations with a student. The performance
of such a Spoken Language Understanding system (SLU) can be adversely affected
by both the presence of Automatic Speech Recognition (ASR) errors in the test
data and a high degree of class imbalance in the SLU training data. While these
two issues have been addressed separately in prior work, we develop a novel
two-step training methodology that tackles both these issues effectively in a
single dialog agent. As it is difficult to collect spoken data from users
without a functioning SLU system, our method does not rely on spoken data for
training, rather we use an ASR error predictor to "speechify" the text data.
Our method shows significant improvements over strong baselines on the VP
intent classification task at various word error rate settings.
- Abstract(参考訳): 仮想患者(VP)は、医学生に患者の歴史を学ばせるための強力なツールであり、学生との自然な会話をシミュレートするためには、多様な質問に答えることが不可欠である。
このような音声言語理解システム(SLU)の性能は、テストデータにおける自動音声認識(ASR)エラーの存在と、SLUトレーニングデータにおける高いクラス不均衡の両方に悪影響を及ぼす可能性がある。
これら2つの問題は先行研究で別々に取り組まれてきたが、我々はこれらの問題を単一のダイアログエージェントで効果的に扱う新しい2段階のトレーニング手法を開発した。
機能的SLUシステムなしではユーザから音声データを収集することは困難であるため,本手法は音声データに頼らず,テキストデータを"音声化"するためにASRエラー予測器を使用する。
提案手法は,様々な単語誤り率設定において,vpインテント分類タスクの強いベースラインに対して有意な改善を示す。
関連論文リスト
- Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation [0.0]
進歩への重要な障壁は、大きな注釈付き不適切な音声データセットの不足である。
本稿では,標準音声における自己教師型学習を応用した包括的ASR設計手法を提案する。
結果から,比較的小さなラベル付きデータセットによる微調整wav2vec 2.0とデータ拡張による単語誤り率の低減効果が示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:56:40Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for
Improving ASR Robustness in Spoken Language Understanding [55.39105863825107]
本稿では,ML-LMCL(Multual Learning and Large-Margin Contrastive Learning)を提案する。
微調整では、相互学習を適用し、手書き文字とASR文字の2つのSLUモデルを訓練する。
3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-19T16:53:35Z) - The Far Side of Failure: Investigating the Impact of Speech Recognition
Errors on Subsequent Dementia Classification [8.032686410648274]
自然発話で検出される言語異常は、認知障害などの認知障害のスクリーニングなど、様々な臨床応用の可能性を示唆している。
自己教師付き学習(SSL)自動音声認識(ASR)モデルにおいて,臨床環境から抽出した難解な音声サンプルでは,有意な性能が得られない。
我々の重要な発見の1つは、パラドックス的に、比較的高いエラー率を持つASRシステムは、動詞の文字起こしに基づく分類よりも、より下流の分類精度の高い転写文を生成できるということである。
論文 参考訳(メタデータ) (2022-11-11T17:06:45Z) - Speech-text based multi-modal training with bidirectional attention for
improved speech recognition [26.47071418582507]
ASRエンコーダ(ボット層)とテキストエンコーダ(テキストエンコーダ)をマルチモーダル学習法で共同学習するために,新しい双方向アテンション機構(BiAM)を提案する。
BiAMは特徴サンプリングレートの交換を促進することを目的としており、別の空間で測定すべきものに対する変換された特徴の品質を実現する。
Librispeech corpusの実験結果から、ペアデータ学習のみで最大6.15%のワードエラー率削減(WERR)を達成でき、また、より不適切なテキストデータを使用すると9.23%のWERRを実現することができる。
論文 参考訳(メタデータ) (2022-11-01T08:25:11Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z) - Data Augmentation for Training Dialog Models Robust to Speech
Recognition Errors [5.53506103787497]
Amazon Alexa、Google Assistant、Apple Siriなどの音声ベースのバーチャルアシスタントは、通常、ユーザーの音声信号を自動音声認識(ASR)を通じてテキストデータに変換する。
ASR出力はエラーを起こしやすいが、下流のダイアログモデルはしばしばエラーのないテキストデータに基づいて訓練され、推論時間中にASRエラーに敏感になる。
我々は、ASRエラーシミュレータを利用して、エラーのないテキストデータにノイズを注入し、その後、拡張データでダイアログモデルを訓練する。
論文 参考訳(メタデータ) (2020-06-10T03:18:15Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。