論文の概要: Explanations for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2302.14062v1
- Date: Mon, 27 Feb 2023 11:09:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 19:19:07.062879
- Title: Explanations for Automatic Speech Recognition
- Title(参考訳): 自動音声認識のための説明
- Authors: Xiaoliang Wu, Peter Bell, Ajitha Rajan
- Abstract要約: 音声フレームのサブセットとして、ASR転写の説明を提供する。
我々は,画像分類-統計的故障局所化(SFL)とCausalから既存の説明可能なAI技術を適用した。
提案手法は,3種類のASR,Google API,Sphinx,Deepspeechのベースラインモデル,およびCommonvoiceデータセットから得られた100のオーディオサンプルに対して,提案手法による説明の質を評価する。
- 参考スコア(独自算出の注目度): 9.810810252231812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address quality assessment for neural network based ASR by providing
explanations that help increase our understanding of the system and ultimately
help build trust in the system. Compared to simple classification labels,
explaining transcriptions is more challenging as judging their correctness is
not straightforward and transcriptions as a variable-length sequence is not
handled by existing interpretable machine learning models. We provide an
explanation for an ASR transcription as a subset of audio frames that is both a
minimal and sufficient cause of the transcription. To do this, we adapt
existing explainable AI (XAI) techniques from image classification-Statistical
Fault Localisation(SFL) and Causal. Additionally, we use an adapted version of
Local Interpretable Model-Agnostic Explanations (LIME) for ASR as a baseline in
our experiments. We evaluate the quality of the explanations generated by the
proposed techniques over three different ASR ,Google API, the baseline model of
Sphinx, Deepspeech and 100 audio samples from the Commonvoice dataset.
- Abstract(参考訳): ニューラルネットワークに基づくAIRの品質評価には、システムに対する理解を深め、最終的にはシステムへの信頼を構築するのに役立つ説明を提供することで対処する。
単純な分類ラベルと比較して、転写の正しさを判断することは簡単ではなく、可変長シーケンスとしての転写は既存の解釈可能な機械学習モデルでは処理されないため、より難しい。
本稿では,音声フレームのサブセットとしてのASR転写の説明を行う。
そこで我々は,画像分類-統計的故障局所化(SFL)と因果関係から既存の説明可能なAI(XAI)技術を適用した。
さらに,本実験では,ASRをベースラインとして,LIME(Local Interpretable Model-Agnostic Explanations)の適応版を用いる。
提案手法は,3種類のASR,Google API,Sphinx,Deepspeechのベースラインモデル,およびCommonvoiceデータセットから得られた100のオーディオサンプルに対して,提案手法による説明の質を評価する。
関連論文リスト
- It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Can We Trust Explainable AI Methods on ASR? An Evaluation on Phoneme
Recognition [9.810810252231812]
深層学習に基づく音声認識(ASR)を説明するためにXAI技術を使うことに関心が持たれている。
画像分類領域である局所解釈可能なモデル非依存表現(LIME)からTIMITに基づく音素認識タスクの訓練モデルに適用する。
本稿では、時間分割音声セグメントに基づくLIMEの変種を見つけ、最も信頼性の高い説明を生成する。
論文 参考訳(メタデータ) (2023-05-29T11:04:13Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Hallucination of speech recognition errors with sequence to sequence
learning [16.39332236910586]
プレーンテキストデータを使用して話し言葉理解やASRのためのシステムのトレーニングを行う場合、証明された戦略は、ASR出力が金の転写を与えるであろうものを幻覚することです。
本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。
これにより、ドメイン内ASRシステムの未確認データの転写からのエラーのリコール、およびドメイン外ASRシステムの非関連タスクからのオーディオの転写の以前の結果が改善されます。
論文 参考訳(メタデータ) (2021-03-23T02:09:39Z) - WER-BERT: Automatic WER Estimation with BERT in a Balanced Ordinal
Classification Paradigm [0.0]
分類設定におけるe-WERの新たなバランスの取れたパラダイムを提案する。
このパラダイムでは、E-WERの音声機能を備えたBERTベースのアーキテクチャであるWER-BERTも提案しています。
結果と実験は、WER-BERTが自動WER推定において新しい最先端を確立することを示しています。
論文 参考訳(メタデータ) (2021-01-14T07:26:28Z) - Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。
まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。
実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文 参考訳(メタデータ) (2020-05-25T14:42:26Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。