論文の概要: CPPF: A contextual and post-processing-free model for automatic speech
recognition
- arxiv url: http://arxiv.org/abs/2309.07413v1
- Date: Thu, 14 Sep 2023 03:40:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 16:19:20.596215
- Title: CPPF: A contextual and post-processing-free model for automatic speech
recognition
- Title(参考訳): CPPF:自動音声認識のための文脈・後処理自由モデル
- Authors: Lei Zhang, Zhengkun Tian, Xiang Chen, Jiaming Sun, Hongyu Xiang, Ke
Ding, Guanglu Wan
- Abstract要約: 本研究では、コンテキストASRや複数のASRポスト処理タスクを含む、ASR関連の処理タスクに焦点を当てる。
我々は、ASR処理に代わる多目的かつ高効率な代替手段を提供するCPPFモデルを導入する。
- 参考スコア(独自算出の注目度): 26.20262773925733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ASR systems have become increasingly widespread in recent years. However,
their textual outputs often require post-processing tasks before they can be
practically utilized. To address this issue, we draw inspiration from the
multifaceted capabilities of LLMs and Whisper, and focus on integrating
multiple ASR text processing tasks related to speech recognition into the ASR
model. This integration not only shortens the multi-stage pipeline, but also
prevents the propagation of cascading errors, resulting in direct generation of
post-processed text. In this study, we focus on ASR-related processing tasks,
including Contextual ASR and multiple ASR post processing tasks. To achieve
this objective, we introduce the CPPF model, which offers a versatile and
highly effective alternative to ASR processing. CPPF seamlessly integrates
these tasks without any significant loss in recognition performance.
- Abstract(参考訳): ASRシステムは近年急速に普及している。
しかし、それらのテキスト出力は、実際に利用される前に処理後タスクを必要とすることが多い。
この問題に対処するために,llmsとwhisperの多面的機能から着想を得て,音声認識に関連する複数のasrテキスト処理タスクをasrモデルに統合することに注力する。
この統合は、マルチステージパイプラインを短縮するだけでなく、カスケードエラーの伝播を防止し、後処理のテキストを直接生成する。
本研究では、コンテキストASRや複数のASRポスト処理タスクを含む、ASR関連の処理タスクに焦点をあてる。
この目的を達成するため,我々は,asr処理に代わる汎用かつ高効率な選択肢を提供するcppfモデルを提案する。
CPPFは認識性能を著しく損なうことなくこれらのタスクをシームレスに統合する。
関連論文リスト
- Improving Robustness of Neural Inverse Text Normalization via
Data-Augmentation, Semi-Supervised Learning, and Post-Aligning Method [4.343606621506086]
逆テキスト正規化(ITN)は、特に自動音声認識(ASR)の文脈において、音声形式を書字形式に変換する上で重要である
本稿では,ASR 言語文脈エミュレーションによるペアの強化と,大規模言語モデルにより強化された半教師付き学習手法を用いて,ASR 生成したテキストや音声テキストを利用するダイレクトトレーニング手法を提案する。
提案手法は,様々なASRシナリオにおけるITN性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-12T06:05:57Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Long-Running Speech Recognizer:An End-to-End Multi-Task Learning
Framework for Online ASR and VAD [10.168591454648123]
本稿では、ASRとVODを1つのモデルに統合する新しいエンドツーエンド(E2E)マルチタスク学習(MTL)フレームワークを提案する。
提案システムはLong-Running Speech Recognizer (LR-SR) と呼ばれ, 訓練段階における2つのタスク固有のデータセットから, ASR と VAD を併用して学習する。
推論段階では、LR-SRシステムは低計算コストで非音声部品を除去し、高い堅牢性を有する音声部品を認識する。
論文 参考訳(メタデータ) (2021-03-02T11:49:03Z) - Contextualized Attention-based Knowledge Transfer for Spoken
Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。
本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。
Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:17:18Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。