論文の概要: CPPF: A contextual and post-processing-free model for automatic speech
recognition
- arxiv url: http://arxiv.org/abs/2309.07413v2
- Date: Thu, 21 Sep 2023 03:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 18:36:38.692431
- Title: CPPF: A contextual and post-processing-free model for automatic speech
recognition
- Title(参考訳): CPPF:自動音声認識のための文脈・後処理自由モデル
- Authors: Lei Zhang, Zhengkun Tian, Xiang Chen, Jiaming Sun, Hongyu Xiang, Ke
Ding, Guanglu Wan
- Abstract要約: 本研究では、コンテキストASRや複数のASRポスト処理タスクを含む、ASR関連の処理タスクに焦点を当てる。
我々は、ASR処理に代わる多目的かつ高効率な代替手段を提供するCPPFモデルを導入する。
- 参考スコア(独自算出の注目度): 26.20262773925733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ASR systems have become increasingly widespread in recent years. However,
their textual outputs often require post-processing tasks before they can be
practically utilized. To address this issue, we draw inspiration from the
multifaceted capabilities of LLMs and Whisper, and focus on integrating
multiple ASR text processing tasks related to speech recognition into the ASR
model. This integration not only shortens the multi-stage pipeline, but also
prevents the propagation of cascading errors, resulting in direct generation of
post-processed text. In this study, we focus on ASR-related processing tasks,
including Contextual ASR and multiple ASR post processing tasks. To achieve
this objective, we introduce the CPPF model, which offers a versatile and
highly effective alternative to ASR processing. CPPF seamlessly integrates
these tasks without any significant loss in recognition performance.
- Abstract(参考訳): ASRシステムは近年急速に普及している。
しかし、それらのテキスト出力は、実際に利用される前に処理後タスクを必要とすることが多い。
この問題に対処するために,llmsとwhisperの多面的機能から着想を得て,音声認識に関連する複数のasrテキスト処理タスクをasrモデルに統合することに注力する。
この統合は、マルチステージパイプラインを短縮するだけでなく、カスケードエラーの伝播を防止し、後処理のテキストを直接生成する。
本研究では、コンテキストASRや複数のASRポスト処理タスクを含む、ASR関連の処理タスクに焦点をあてる。
この目的を達成するため,我々は,asr処理に代わる汎用かつ高効率な選択肢を提供するcppfモデルを提案する。
CPPFは認識性能を著しく損なうことなくこれらのタスクをシームレスに統合する。
関連論文リスト
- Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - AnySR: Realizing Image Super-Resolution as Any-Scale, Any-Resource [84.74855803555677]
我々はAnySRを導入し、既存の任意のスケールのSRメソッドを任意のソース実装に再構築する。
私たちのAnySRは、1)任意のスケールタスクを任意のリソース実装として構築し、追加のパラメータなしで小さなスケールのリソース要件を減らします。
その結果,AnySR は SISR タスクをより効率的な計算方法で実装し,既存の任意のスケールの SISR メソッドに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-07-05T04:00:14Z) - Improving Robustness of Neural Inverse Text Normalization via
Data-Augmentation, Semi-Supervised Learning, and Post-Aligning Method [4.343606621506086]
逆テキスト正規化(ITN)は、特に自動音声認識(ASR)の文脈において、音声形式を書字形式に変換する上で重要である
本稿では,ASR 言語文脈エミュレーションによるペアの強化と,大規模言語モデルにより強化された半教師付き学習手法を用いて,ASR 生成したテキストや音声テキストを利用するダイレクトトレーニング手法を提案する。
提案手法は,様々なASRシナリオにおけるITN性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-12T06:05:57Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Long-Running Speech Recognizer:An End-to-End Multi-Task Learning
Framework for Online ASR and VAD [10.168591454648123]
本稿では、ASRとVODを1つのモデルに統合する新しいエンドツーエンド(E2E)マルチタスク学習(MTL)フレームワークを提案する。
提案システムはLong-Running Speech Recognizer (LR-SR) と呼ばれ, 訓練段階における2つのタスク固有のデータセットから, ASR と VAD を併用して学習する。
推論段階では、LR-SRシステムは低計算コストで非音声部品を除去し、高い堅牢性を有する音声部品を認識する。
論文 参考訳(メタデータ) (2021-03-02T11:49:03Z) - Contextualized Attention-based Knowledge Transfer for Spoken
Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。
本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。
Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:17:18Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。