Fugu-MT 論文翻訳(概要): CPPF: A contextual and post-processing-free model for automatic speech recognition

論文の概要: CPPF: A contextual and post-processing-free model for automatic speech recognition

arxiv url: http://arxiv.org/abs/2309.07413v1
Date: Thu, 14 Sep 2023 03:40:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-15 16:19:20.596215
Title: CPPF: A contextual and post-processing-free model for automatic speech recognition
Title（参考訳）: CPPF:自動音声認識のための文脈・後処理自由モデル
Authors: Lei Zhang, Zhengkun Tian, Xiang Chen, Jiaming Sun, Hongyu Xiang, Ke Ding, Guanglu Wan
Abstract要約: 本研究では、コンテキストASRや複数のASRポスト処理タスクを含む、ASR関連の処理タスクに焦点を当てる。我々は、ASR処理に代わる多目的かつ高効率な代替手段を提供するCPPFモデルを導入する。
参考スコア（独自算出の注目度）: 26.20262773925733
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: ASR systems have become increasingly widespread in recent years. However, their textual outputs often require post-processing tasks before they can be practically utilized. To address this issue, we draw inspiration from the multifaceted capabilities of LLMs and Whisper, and focus on integrating multiple ASR text processing tasks related to speech recognition into the ASR model. This integration not only shortens the multi-stage pipeline, but also prevents the propagation of cascading errors, resulting in direct generation of post-processed text. In this study, we focus on ASR-related processing tasks, including Contextual ASR and multiple ASR post processing tasks. To achieve this objective, we introduce the CPPF model, which offers a versatile and highly effective alternative to ASR processing. CPPF seamlessly integrates these tasks without any significant loss in recognition performance.
Abstract（参考訳）: ASRシステムは近年急速に普及している。しかし、それらのテキスト出力は、実際に利用される前に処理後タスクを必要とすることが多い。この問題に対処するために,llmsとwhisperの多面的機能から着想を得て,音声認識に関連する複数のasrテキスト処理タスクをasrモデルに統合することに注力する。この統合は、マルチステージパイプラインを短縮するだけでなく、カスケードエラーの伝播を防止し、後処理のテキストを直接生成する。本研究では、コンテキストASRや複数のASRポスト処理タスクを含む、ASR関連の処理タスクに焦点をあてる。この目的を達成するため,我々は,asr処理に代わる汎用かつ高効率な選択肢を提供するcppfモデルを提案する。 CPPFは認識性能を著しく損なうことなくこれらのタスクをシームレスに統合する。

関連論文リスト

GRASP: Guided Region-Aware Sparse Prompting for Adapting MLLMs to Remote Sensing [50.961694646995376]
GRASP(Guid Region-Aware Sparse Prompting)と呼ばれるパラメータ効率細調整(PEFT)戦略を提案する。 GRASPは、凍結した視覚的トークングリッドから抽出された空間ブロックに関連する空間的構造化されたソフトプロンプトを導入する。複数のRSVQAベンチマークの実験では、GRASPは既存の微調整やプロンプトベースの手法と比較して競争性能が向上している。
論文参考訳（メタデータ） (2026-01-23T10:12:59Z)
Speech Recognition on TV Series with Video-guided Post-Correction [13.736656652049884]
既存のマルチモーダルアプローチでは、ビデオで利用可能な豊富な時間的・文脈的な情報を用いて、ASR出力の補正に失敗する。本稿では,ビデオから抽出した文脈的手がかりを活用して,ASR転写を改良する多モーダル後補正フレームワークを提案する。本手法は,テレビシリーズASRのマルチモーダル・ベンチマークで評価し,ASRの性能向上に有効であることを示す。
論文参考訳（メタデータ） (2025-06-08T23:36:31Z)
Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-07-31T08:00:41Z)
AnySR: Realizing Image Super-Resolution as Any-Scale, Any-Resource [84.74855803555677]
我々はAnySRを導入し、既存の任意のスケールのSRメソッドを任意のソース実装に再構築する。私たちのAnySRは、1)任意のスケールタスクを任意のリソース実装として構築し、追加のパラメータなしで小さなスケールのリソース要件を減らします。その結果,AnySR は SISR タスクをより効率的な計算方法で実装し,既存の任意のスケールの SISR メソッドに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-07-05T04:00:14Z)
Improving Robustness of Neural Inverse Text Normalization via Data-Augmentation, Semi-Supervised Learning, and Post-Aligning Method [4.343606621506086]
逆テキスト正規化(ITN)は、特に自動音声認識(ASR)の文脈において、音声形式を書字形式に変換する上で重要である本稿では,ASR 言語文脈エミュレーションによるペアの強化と,大規模言語モデルにより強化された半教師付き学習手法を用いて,ASR 生成したテキストや音声テキストを利用するダイレクトトレーニング手法を提案する。提案手法は,様々なASRシナリオにおけるITN性能を著しく向上させる。
論文参考訳（メタデータ） (2023-09-12T06:05:57Z)
Exploring the Integration of Speech Separation and Recognition with Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。 TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文参考訳（メタデータ） (2023-07-23T05:39:39Z)
Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる ASR誤差はカスケード法における出力要約の品質に直接影響する。本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文参考訳（メタデータ） (2021-11-16T03:00:29Z)
An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。 ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文参考訳（メタデータ） (2021-03-25T05:15:43Z)
Long-Running Speech Recognizer:An End-to-End Multi-Task Learning Framework for Online ASR and VAD [10.168591454648123]
本稿では、ASRとVODを1つのモデルに統合する新しいエンドツーエンド(E2E)マルチタスク学習(MTL)フレームワークを提案する。提案システムはLong-Running Speech Recognizer (LR-SR) と呼ばれ, 訓練段階における2つのタスク固有のデータセットから, ASR と VAD を併用して学習する。推論段階では、LR-SRシステムは低計算コストで非音声部品を除去し、高い堅牢性を有する音声部品を認識する。
論文参考訳（メタデータ） (2021-03-02T11:49:03Z)
Contextualized Attention-based Knowledge Transfer for Spoken Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。 Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2020-10-21T15:17:18Z)
Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。 APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文参考訳（メタデータ） (2020-04-09T09:26:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。