論文の概要: Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers
- arxiv url: http://arxiv.org/abs/2104.10328v1
- Date: Wed, 21 Apr 2021 03:05:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 14:11:22.237775
- Title: Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers
- Title(参考訳): 前向きおよび後向き変換器を用いたASRのためのラベル同期音声テキストアライメント
- Authors: Yusuke Kida, Tatsuya Komatsu, Masahito Togami
- Abstract要約: 本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
- 参考スコア(独自算出の注目度): 49.403414751667135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel label-synchronous speech-to-text alignment
technique for automatic speech recognition (ASR). The speech-to-text alignment
is a problem of splitting long audio recordings with un-aligned transcripts
into utterance-wise pairs of speech and text. Unlike conventional methods based
on frame-synchronous prediction, the proposed method re-defines the
speech-to-text alignment as a label-synchronous text mapping problem. This
enables an accurate alignment benefiting from the strong inference ability of
the state-of-the-art attention-based encoder-decoder models, which cannot be
applied to the conventional methods. Two different Transformer models named
forward Transformer and backward Transformer are respectively used for
estimating an initial and final tokens of a given speech segment based on
end-of-sentence prediction with teacher-forcing. Experiments using the corpus
of spontaneous Japanese (CSJ) demonstrate that the proposed method provides an
accurate utterance-wise alignment, that matches the manually annotated
alignment with as few as 0.2% errors. It is also confirmed that a
Transformer-based hybrid CTC/Attention ASR model using the aligned speech and
text pairs as an additional training data reduces character error rates
relatively up to 59.0%, which is significantly better than 39.0% reduction by a
conventional alignment method based on connectionist temporal classification
model.
- Abstract(参考訳): 本稿では,自動音声認識(ASR)のためのラベル同期音声テキストアライメント手法を提案する。
音声とテキストのアライメントは、音声とテキストのペアに不一致の書き起こしを含む長い音声を分割する問題である。
従来のフレーム同期予測法とは異なり,提案手法ではラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
これにより、従来の手法では適用できない最先端の注目型エンコーダデコーダモデルの強い推論能力から、正確なアライメントが可能となる。
Forward Transformer と Backward Transformer という2つの異なるトランスフォーマーモデルを用いて,教師力による終末予測に基づいて,与えられた音声セグメントの初期および最終トークンを推定する。
自発的日本語コーパス(CSJ)を用いた実験では,手動によるアライメントを0.2%の誤差で一致させる,高精度な発話アライメントが提案されている。
また,一致した音声とテキストのペアを併用したトランスフォーマーベースのハイブリッドCTC/Attention ASRモデルにより,59.0%までの文字誤り率を相対的に低減し,接続性時間分類モデルに基づく従来のアライメント法では39.0%よりも大幅に向上することが確認された。
関連論文リスト
- Spelling Correction through Rewriting of Non-Autoregressive ASR Lattices [8.77712061194924]
本稿では,トランスフォーマーを用いたCTCモデルにより生成されたワードピース格子を書き換える有限状態トランスデューサ(FST)手法を提案する。
本アルゴリズムは,単語から音素への変換を直接行うため,明示的な単語表現を避けることができる。
文脈関連エンティティを用いたテストにおいて, 文誤り率(SER)の15.2%の相対的低減を実現した。
論文 参考訳(メタデータ) (2024-09-24T21:42:25Z) - Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition [18.50957174600796]
重なり合う話者の自動音声認識(ASR)の解決策は、音声を分離し、分離された信号でASRを実行することである。
現在、セパレータはASR性能を劣化させるアーティファクトを生産している。
本稿では,音声信号のみを用いた共同学習のための書き起こし不要手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T08:20:58Z) - Whispering LLaMA: A Cross-Modal Generative Error Correction Framework
for Speech Recognition [10.62060432965311]
自動音声認識(ASR)における生成誤り訂正のための新しいクロスモーダル融合手法を提案する。
提案手法は,音響情報と外部言語表現の両方を利用して,正確な音声の書き起こしコンテキストを生成する。
論文 参考訳(メタデータ) (2023-10-10T09:04:33Z) - Towards zero-shot Text-based voice editing using acoustic context
conditioning, utterance embeddings, and reference encoders [14.723225542605105]
テキストベースの音声編集(TBVE)は、テキスト音声合成システム(TTS)からの合成出力を使用して、オリジナル録音中の単語を置き換える。
近年の研究では、ニューラルモデルを用いて、明瞭さ、話者識別、韻律の観点から、オリジナルの音声に似た編集された音声を生成する。
この研究は、微調整を完全に回避するゼロショットアプローチに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-28T10:31:44Z) - Iterative pseudo-forced alignment by acoustic CTC loss for
self-supervised ASR domain adaptation [80.12316877964558]
特定のドメインからの高品質なデータラベリングはコストと人的時間を要する。
本稿では,反復的擬力アライメントアルゴリズムに基づく自己教師付きドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2022-10-27T07:23:08Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。