論文の概要: Achieving Timestamp Prediction While Recognizing with Non-Autoregressive
End-to-End ASR Model
- arxiv url: http://arxiv.org/abs/2301.12343v1
- Date: Sun, 29 Jan 2023 03:47:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 17:44:38.259536
- Title: Achieving Timestamp Prediction While Recognizing with Non-Autoregressive
End-to-End ASR Model
- Title(参考訳): 非自己回帰型エンドツーエンドASRモデルを用いたタイムスタンプ予測
- Authors: Xian Shi, Yanni Chen, Shiliang Zhang, and Zhijie Yan
- Abstract要約: 本稿では,連続的な統合火災(CIF)機構を用いて認識しながら,タイムスタンプ予測(TP)を行う手法を提案する。
実験の結果,提案手法はCIFタイムスタンプの精度を大幅に向上することがわかった。
- 参考スコア(独自算出の注目度): 39.892106056198614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional ASR systems use frame-level phoneme posterior to conduct
force-alignment~(FA) and provide timestamps, while end-to-end ASR systems
especially AED based ones are short of such ability. This paper proposes to
perform timestamp prediction~(TP) while recognizing by utilizing continuous
integrate-and-fire~(CIF) mechanism in non-autoregressive ASR model -
Paraformer. Foucing on the fire place bias issue of CIF, we conduct
post-processing strategies including fire-delay and silence insertion. Besides,
we propose to use scaled-CIF to smooth the weights of CIF output, which is
proved beneficial for both ASR and TP task. Accumulated averaging shift~(AAS)
and diarization error rate~(DER) are adopted to measure the quality of
timestamps and we compare these metrics of proposed system and conventional
hybrid force-alignment system. The experiment results over manually-marked
timestamps testset show that the proposed optimization methods significantly
improve the accuracy of CIF timestamps, reducing 66.7\% and 82.1\% of AAS and
DER respectively. Comparing to Kaldi force-alignment trained with the same
data, optimized CIF timestamps achieved 12.3\% relative AAS reduction.
- Abstract(参考訳): 従来のASRシステムはフレームレベルの音素を後続音素を用いてフォースアライメント~(FA)を行い、タイムスタンプを提供する。
本稿では,非自己回帰型ASRモデルParaformerにおいて,連続的な統合・消火機構を活用しながらタイムスタンプ予測~(TP)を行うことを提案する。
CIFの発火場所バイアス問題に着目し, 消火・消火・消火などの後処理を実施。
また,asr と tp タスクの両方に有益である cif 出力の重みを滑らかにするためにscaled-cif を用いることを提案する。
累積平均シフト〜(aas)とダイアリゼーション誤差〜(der)を用いてタイムスタンプの品質を測定し,提案システムと従来のハイブリッド力調整システムとの比較を行った。
その結果,提案手法はcifタイムスタンプの精度を大幅に向上させ,それぞれ66.7\%と82.1\%のaasとderを削減した。
同じデータで訓練されたカルディの力調整と比較すると、最適化されたCIFタイムスタンプは相対AASの12.3\%の減少を達成した。
関連論文リスト
- Breaking Determinism: Fuzzy Modeling of Sequential Recommendation Using Discrete State Space Diffusion Model [66.91323540178739]
シークエンシャルレコメンデーション(SR)は、ユーザーが過去の行動に基づいて興味を持つかもしれない項目を予測することを目的としている。
我々はSRを新しい情報理論の観点から再検討し、逐次モデリング手法がユーザの行動のランダム性と予測不可能性を適切に把握できないことを発見した。
ファジィ情報処理理論に触発された本論文では,制限を克服し,ユーザの関心事の進化をよりよく捉えるために,ファジィなインタラクションシーケンスの組を導入する。
論文 参考訳(メタデータ) (2024-10-31T14:52:01Z) - Automatic Speech Recognition System-Independent Word Error Rate Estimation [23.25173244408922]
単語誤り率(Word error rate、WER)は、自動音声認識(ASR)システムによって生成された文字の質を評価するために用いられる指標である。
本稿では,ASRシステムに依存しないWER推定のための仮説生成手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T16:57:05Z) - On the Relevance of Phoneme Duration Variability of Synthesized Training
Data for Automatic Speech Recognition [0.552480439325792]
合成データの時間構造とASRトレーニングとの関係に着目した。
本研究では, 合成データ品質の劣化が, 非自己回帰性TSの持続時間モデルにどの程度影響されているかを示す。
簡単なアルゴリズムを用いて,TTSシステムの音素持続時間分布を実時間に近づける。
論文 参考訳(メタデータ) (2023-10-12T08:45:21Z) - Iterative pseudo-forced alignment by acoustic CTC loss for
self-supervised ASR domain adaptation [80.12316877964558]
特定のドメインからの高品質なデータラベリングはコストと人的時間を要する。
本稿では,反復的擬力アライメントアルゴリズムに基づく自己教師付きドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2022-10-27T07:23:08Z) - Error Correction in ASR using Sequence-to-Sequence Models [32.41875780785648]
自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。
本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。
アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
論文 参考訳(メタデータ) (2022-02-02T17:32:59Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - Reducing Streaming ASR Model Delay with Self Alignment [20.61461084287351]
制約付きアライメントは、外部の低遅延音響モデルを用いて予測された単語境界をペナライズする、よく知られたアプローチである。
FastEmitは、参照アライメントなしでブランク上の語彙トークンを奨励するシーケンスレベルの遅延正規化スキームです。
本稿では,自己アライメントという,新たな遅延制約手法を提案する。
論文 参考訳(メタデータ) (2021-05-06T18:00:11Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z) - Change Point Detection in Time Series Data using Autoencoders with a
Time-Invariant Representation [69.34035527763916]
変化点検出(CPD)は、時系列データにおける急激な特性変化を見つけることを目的としている。
近年のCDD法は、深層学習技術を用いる可能性を示したが、信号の自己相関統計学におけるより微妙な変化を識別する能力に欠けることが多い。
我々は、新しい損失関数を持つオートエンコーダに基づく手法を用い、使用済みオートエンコーダは、CDDに適した部分的な時間不変表現を学習する。
論文 参考訳(メタデータ) (2020-08-21T15:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。