Fugu-MT 論文翻訳(概要): End-to-end Joint Rich and Normalized ASR with a limited amount of rich training data

論文の概要: End-to-end Joint Rich and Normalized ASR with a limited amount of rich training data

arxiv url: http://arxiv.org/abs/2311.17741v1
Date: Wed, 29 Nov 2023 15:44:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 20:42:25.790131
Title: End-to-end Joint Rich and Normalized ASR with a limited amount of rich training data
Title（参考訳）: 限られた量のリッチトレーニングデータを有するエンド・ツー・エンド継手および正規化asr
Authors: Can Cui (MULTISPEECH), Imran Ahamad Sheikh, Mostafa Sadeghi (MULTISPEECH), Emmanuel Vincent (MULTISPEECH)
Abstract要約: 我々は、限られた量のリッチラベル付きデータで、ステートレストランスデューサベースのE2Eジョイントリッチで正規化されたASRシステムを訓練する。最初のアプローチはE2EリッチなASRにつながり、ドメイン外のデータでは最大9%のエラーが減少する。第2のアプローチは、中程度の(2.42%絶対)エラーの増加を伴う5%のリッチトレーニングデータを用いて、E2Eジョイントリッチで正規化されたASRシステムの実現可能性を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Joint rich and normalized automatic speech recognition (ASR), that produces transcriptions both with and without punctuation and capitalization, remains a challenge. End-to-end (E2E) ASR models offer both convenience and the ability to perform such joint transcription of speech. Training such models requires paired speech and rich text data, which is not widely available. In this paper, we compare two different approaches to train a stateless Transducer-based E2E joint rich and normalized ASR system, ready for streaming applications, with a limited amount of rich labeled data. The first approach uses a language model to generate pseudo-rich transcriptions of normalized training data. The second approach uses a single decoder conditioned on the type of the output. The first approach leads to E2E rich ASR which perform better on out-of-domain data, with up to 9% relative reduction in errors. The second approach demonstrates the feasibility of an E2E joint rich and normalized ASR system using as low as 5% rich training data with moderate (2.42% absolute) increase in errors.
Abstract（参考訳）: 句読と大文字化を伴わずとも書き起こしを行う統合リッチ・正規化自動音声認識(asr)は依然として課題である。エンド・ツー・エンド(E2E)のASRモデルは、このような音声の合成を行うための利便性と能力の両方を提供する。このようなモデルのトレーニングには、ペア音声とリッチテキストデータが必要である。本稿では,ストリーミングアプリケーションに適した,ステートレストランスデューサベースのE2Eジョイントリッチで正規化されたASRシステムを,限られたラベル付きデータでトレーニングするための2つのアプローチを比較する。最初のアプローチでは、正規化されたトレーニングデータの擬似リッチな書き起こしを生成するために言語モデルを使用する。第2のアプローチでは、出力の型に条件付き1つのデコーダを使用する。最初のアプローチはE2EリッチなASRにつながり、ドメイン外のデータでは最大9%のエラーが減少する。第2のアプローチは、中程度の(2.42%の絶対値)誤差の増加を伴う5%のリッチトレーニングデータを用いたe2e結合および正規化asrシステムの実現可能性を示す。

関連論文リスト

UCorrect: An Unsupervised Framework for Automatic Speech Recognition Error Correction [18.97378605403447]
ASR誤り訂正のための教師なし検出器・ジェネレータ・セレクタ・フレームワークであるUCorrectを提案する。パブリックAISHELL-1データセットとWenetSpeechデータセットの実験は、UCorrectの有効性を示している。
論文参考訳（メタデータ） (2024-01-11T06:30:07Z)
LibriSpeech-PC: Benchmark for Evaluation of Punctuation and Capitalization Capabilities of end-to-end ASR Models [58.790604613878216]
我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
論文参考訳（メタデータ） (2023-10-04T16:23:37Z)
Convoifilter: A case study of doing cocktail party speech recognition [59.80042864360884]
このモデルは、このアプローチにより、ASRの単語誤り率(WER)を80%から26.4%に下げることができる。我々はオープンに事前学習モデルを共有し、hf.co/nguyenvulebinh/voice-filterのさらなる研究を促進する。
論文参考訳（メタデータ） (2023-08-22T12:09:30Z)
An Experimental Study on Private Aggregation of Teacher Ensemble Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文参考訳（メタデータ） (2022-10-11T16:55:54Z)
Multiple-hypothesis RNN-T Loss for Unsupervised Fine-tuning and Self-training of Neural Transducer [20.8850874806462]
本稿では、ラベルなし音声データを用いて教師なしの微調整と自己学習を行うための新しい手法を提案する。微調整作業のために、ASRモデルはウォールストリートジャーナル(WSJ)、オーロラ4、およびCHiME-4の実雑音データをラベルなしデータとしてトレーニングする。自己学習タスクでは,ウォール・ストリート・ジャーナル(WSJ)やオーロラ4(Aurora-4)の教師付きデータとCHiME-4の実雑音データをラベルなしデータとしてトレーニングする。
論文参考訳（メタデータ） (2022-07-29T15:14:03Z)
End-to-end contextual asr based on posterior distribution adaptation for hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文参考訳（メタデータ） (2022-02-18T03:26:02Z)
Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる ASR誤差はカスケード法における出力要約の品質に直接影響する。本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文参考訳（メタデータ） (2021-11-16T03:00:29Z)
Hallucination of speech recognition errors with sequence to sequence learning [16.39332236910586]
プレーンテキストデータを使用して話し言葉理解やASRのためのシステムのトレーニングを行う場合、証明された戦略は、ASR出力が金の転写を与えるであろうものを幻覚することです。本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。これにより、ドメイン内ASRシステムの未確認データの転写からのエラーのリコール、およびドメイン外ASRシステムの非関連タスクからのオーディオの転写の以前の結果が改善されます。
論文参考訳（メタデータ） (2021-03-23T02:09:39Z)
Robust Prediction of Punctuation and Truecasing for Medical ASR [18.08508027663331]
本稿では,句読点と実測点の予測のための条件付き共同モデリングフレームワークを提案する。また,医療領域データを用いた微調整型マスキング言語モデルによるドメイン・タスク特化手法を提案する。
論文参考訳（メタデータ） (2020-07-04T07:15:13Z)
Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文参考訳（メタデータ） (2020-05-25T14:42:26Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。