論文の概要: Task Oriented Dialogue as a Catalyst for Self-Supervised Automatic
Speech Recognition
- arxiv url: http://arxiv.org/abs/2401.02417v1
- Date: Thu, 4 Jan 2024 18:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 14:24:16.355481
- Title: Task Oriented Dialogue as a Catalyst for Self-Supervised Automatic
Speech Recognition
- Title(参考訳): 自己教師付き自動音声認識の触媒としてのタスク指向対話
- Authors: David M. Chan, Shalini Ghosh, Hitesh Tulsiani, Ariya Rastrow, Bj\"orn
Hoffmeister
- Abstract要約: 本稿では,CLC: Contrastive Learning for Conversationsを紹介する。
我々は,音声タスク指向対話の大規模半合成メタデータセットであるOD3上でのASRモデルの性能向上をLCCファミリーで実証した。
これらの成果は実世界のシステムにもたらされ、CLCがベースラインを最大6.7%上回るパフォーマンス向上に有効であることを示す。
- 参考スコア(独自算出の注目度): 19.475314134504504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While word error rates of automatic speech recognition (ASR) systems have
consistently fallen, natural language understanding (NLU) applications built on
top of ASR systems still attribute significant numbers of failures to
low-quality speech recognition results. Existing assistant systems collect
large numbers of these unsuccessful interactions, but these systems usually
fail to learn from these interactions, even in an offline fashion. In this
work, we introduce CLC: Contrastive Learning for Conversations, a family of
methods for contrastive fine-tuning of models in a self-supervised fashion,
making use of easily detectable artifacts in unsuccessful conversations with
assistants. We demonstrate that our CLC family of approaches can improve the
performance of ASR models on OD3, a new public large-scale semi-synthetic
meta-dataset of audio task-oriented dialogues, by up to 19.2%. These gains
transfer to real-world systems as well, where we show that CLC can help to
improve performance by up to 6.7% over baselines. We make OD3 publicly
available at https://github.com/amazon-science/amazon-od3 .
- Abstract(参考訳): 自動音声認識(ASR)システムにおける単語誤り率は常に低下しているが、自然言語理解(NLU)アプリケーションは、低品質な音声認識結果にかなりの失敗を犯している。
既存のアシスタントシステムはこれらの多くの不成功な相互作用を収集するが、これらのシステムは通常、オフラインの方法でもこれらの相互作用から学ばない。
本稿では,CLC: Contrastive Learning for Conversationsを紹介した。これは,自己教師型でモデルの微調整を行う手法のファミリーであり,アシスタントとの会話が失敗した場合に容易に検出可能なアーティファクトを利用する。
音声タスク指向対話の大規模半合成メタデータセットであるOD3上でのASRモデルの性能を最大19.2%向上させることができることを示す。
これらの成果は実世界のシステムにもたらされ、CLCがベースラインを最大6.7%上回るパフォーマンス向上に役立つことを示す。
od3をhttps://github.com/amazon-science/amazon-od3で公開しています。
関連論文リスト
- Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - A Multimodal Approach to Device-Directed Speech Detection with Large Language Models [41.37311266840156]
我々は、ユーザが各コマンドをトリガーフレーズで開始しなければならないという要求を省くことが可能かどうかを探る。
音声波形から得られた音響情報のみを用いて分類器を訓練する。
本研究では,1-best仮説などの自動音声認識システムのデコーダ出力を,大規模言語モデルへの入力特徴とみなす。
論文 参考訳(メタデータ) (2024-03-21T14:44:03Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Contrastive Learning for Improving ASR Robustness in Spoken Language
Understanding [28.441725610692714]
本稿では,ASRの誤りに対して頑健な発話表現を,対照的な目的を用いて学習することに焦点を当てる。
3つのベンチマークデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-05-02T07:21:21Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - Smoothing Dialogue States for Open Conversational Machine Reading [70.83783364292438]
本稿では,2つの対話状態を1つのデコーダとブリッジ決定と質問生成でスムーズにすることで,効果的なゲーティング戦略を提案する。
OR-ShARCデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-08-28T08:04:28Z) - Multi-task Language Modeling for Improving Speech Recognition of Rare
Words [14.745696312889763]
音声認識性能を向上させるために,意図やスロット予測などのセマンティックターゲットを利用するマルチタスク学習を用いた第2パスシステムを提案する。
マルチタスク LM を用いた ASR システムは,レアワード認識のための RNN Transducer のみの ASR ベースラインと比較して,4.6% の WERR 推論を示す。
論文 参考訳(メタデータ) (2020-11-23T20:40:44Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。