論文の概要: Adapting an Unadaptable ASR System
- arxiv url: http://arxiv.org/abs/2306.01208v1
- Date: Thu, 1 Jun 2023 23:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 17:11:16.683015
- Title: Adapting an Unadaptable ASR System
- Title(参考訳): 適応不能なASRシステムへの適応
- Authors: Rao Ma, Mengjie Qian, Mark J. F. Gales, Kate M. Knill
- Abstract要約: 我々は、最近リリースされたOpenAI Whisper ASRを、適応手法を評価するための大規模ASRシステムの例と考えている。
モデルへのアクセスを必要としないため、誤り訂正に基づくアプローチが採用されている。
次に、2つの異なる次元におけるシステムの一般化能力を評価する。
- 参考スコア(独自算出の注目度): 40.402050390096456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As speech recognition model sizes and training data requirements grow, it is
increasingly common for systems to only be available via APIs from online
service providers rather than having direct access to models themselves. In
this scenario it is challenging to adapt systems to a specific target domain.
To address this problem we consider the recently released OpenAI Whisper ASR as
an example of a large-scale ASR system to assess adaptation methods. An error
correction based approach is adopted, as this does not require access to the
model, but can be trained from either 1-best or N-best outputs that are
normally available via the ASR API. LibriSpeech is used as the primary target
domain for adaptation. The generalization ability of the system in two distinct
dimensions are then evaluated. First, whether the form of correction model is
portable to other speech recognition domains, and secondly whether it can be
used for ASR models having a different architecture.
- Abstract(参考訳): 音声認識モデルのサイズとトレーニングデータ要件が大きくなるにつれて、システムはモデルそのものに直接アクセスするのではなく、オンラインサービスプロバイダのAPIを通じてのみ利用できるようになる。
このシナリオでは、システムを特定のターゲットドメインに適応させることが難しい。
この問題に対処するため,最近リリースされたOpenAI Whisper ASRを,適応手法を評価するための大規模ASRシステムの例として検討した。
エラー修正に基づくアプローチは、モデルへのアクセスを必要としないため採用されているが、通常はASR API経由で利用できる1-bestまたはN-bestの出力からトレーニングすることができる。
librispeechは適応の主要なターゲットドメインとして使用される。
次に、2つの異なる次元におけるシステムの一般化能力を評価する。
第1に、補正モデルの形式が他の音声認識領域に移植可能かどうか、第2に、異なるアーキテクチャを持つASRモデルに使用できるかどうか。
関連論文リスト
- ASR Error Correction using Large Language Models [4.75940708384553]
誤り訂正(EC)モデルは、自動音声認識(ASR)転写の精製において重要な役割を果たす。
本研究は,多種多様なシナリオにおける誤り訂正のための大規模言語モデル (LLM) の使用について検討する。
論文 参考訳(メタデータ) (2024-09-14T23:33:38Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - Contextual Adapters for Personalized Speech Recognition in Neural
Transducers [16.628830937429388]
ニューラルトランスデューサに基づくASRモデルにおいて,パーソナライズのための学習用ニューラルネットワークアダプタを提案する。
我々のアプローチは、ユーザ定義された単語に偏りを持つだけでなく、事前訓練されたASRモデルで作業するための柔軟性も備えています。
論文 参考訳(メタデータ) (2022-05-26T22:46:28Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Residual Adapters for Parameter-Efficient ASR Adaptation to Atypical and
Accented Speech [5.960279280033886]
モデルファインタニングと比較して,比較的少数の余分なパラメータをエンコーダ層に追加することにより,類似の適応ゲインが得られることを示す。
我々はこれを2つの言語適応タスク(非典型的およびアクセント付き音声)と2つの最先端のASRアーキテクチャで実証する。
論文 参考訳(メタデータ) (2021-09-14T20:04:47Z) - Do You Listen with One or Two Microphones? A Unified ASR Model for
Single and Multi-Channel Audio [20.932685675759117]
本稿では,テキストプライマリオンリー(PO)モードとPPAモードの両方に対応可能な統合ASRモデルを提案する。
我々は,1つのデバイスが1つの一次オーディオチャンネルをストリームする現実的なシナリオにおいて,その効果を実証する。
論文 参考訳(メタデータ) (2021-06-04T22:58:42Z) - ASR Error Correction and Domain Adaptation Using Machine Translation [32.27379508770736]
機械翻訳によるASR誤り訂正のための領域適応手法を提案する。
Google ASR出力における単語誤り率の絶対的改善とBLEUスコアの4点絶対的改善を観察した。
論文 参考訳(メタデータ) (2020-03-13T20:05:38Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。