論文の概要: Streaming Punctuation for Long-form Dictation with Transformers
- arxiv url: http://arxiv.org/abs/2210.05756v1
- Date: Tue, 11 Oct 2022 20:03:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 13:52:21.470971
- Title: Streaming Punctuation for Long-form Dictation with Transformers
- Title(参考訳): 変圧器を用いた長方形ディクテーションの流路変動
- Authors: Piyush Behre, Sharman Tan, Padma Varadharajan, Shuangyu Chang
- Abstract要約: ストリーミング句読点は、機械翻訳の下流タスクに対して平均BLEUスコアゲイン0.66を達成する。
新しいシステムは過剰セグメンテーションの問題に取り組み、セグメンテーションF0.5スコアを13.9%改善した。
- 参考スコア(独自算出の注目度): 0.8670827427401333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While speech recognition Word Error Rate (WER) has reached human parity for
English, long-form dictation scenarios still suffer from segmentation and
punctuation problems resulting from irregular pausing patterns or slow
speakers. Transformer sequence tagging models are effective at capturing long
bi-directional context, which is crucial for automatic punctuation. A typical
Automatic Speech Recognition (ASR) production system, however, is constrained
by real-time requirements, making it hard to incorporate the right context when
making punctuation decisions. In this paper, we propose a streaming approach
for punctuation or re-punctuation of ASR output using dynamic decoding windows
and measure its impact on punctuation and segmentation accuracy in a variety of
scenarios. The new system tackles over-segmentation issues, improving
segmentation F0.5-score by 13.9%. Streaming punctuation achieves an average
BLEU-score gain of 0.66 for the downstream task of Machine Translation (MT).
- Abstract(参考訳): 音声認識単語誤り率 (wer) は英語で人間と同水準に達したが、長い形態のディクテーションシナリオは依然として、不規則なページングパターンや遅い話者によって生じるセグメンテーションや句読点の問題に苦しんでいる。
トランスフォーマーシーケンスのタグ付けモデルは、自動句読点に不可欠である長い双方向コンテキストのキャプチャに有効である。
しかし、典型的な自動音声認識(asr)生産システムは、リアルタイムの要求に制約されており、句読点決定時に適切な文脈を取り込むのが困難である。
本稿では,動的復号窓を用いたasr出力の句読解・再句読化のためのストリーミング手法を提案し,様々なシナリオにおける句読解・節読精度への影響を計測する。
新しいシステムは過剰なセグメンテーションの問題に取り組み、セグメンテーションF0.5スコアを13.9%改善した。
ストリーミング句読点は、機械翻訳(MT)の下流タスクに対して平均BLEUスコアゲイン0.66を達成する。
関連論文リスト
- A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - Prompting and Adapter Tuning for Self-supervised Encoder-Decoder Speech
Model [84.12646619522774]
本稿では,自己教師付きエンコーダデコーダモデルであるWav2Seqのプロンプトが,従来のシーケンス生成タスクよりも優れていることを示す。
ASRでは単語誤り率が53%向上し,スロットフィリングではF1スコアが27%向上した。
また、言語間ASRにおけるWav2Seq上でのプロンプトとアダプタチューニングの転送可能性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:07:32Z) - Improved Training for End-to-End Streaming Automatic Speech Recognition
Model with Punctuation [0.08602553195689511]
本研究では,コネクショニスト時間分類(CTC)の損失を学習したチャンクベースのトランスフォーマーエンコーダを用いて,入力音声から句読影テキストを予測する手法を提案する。
チャンクと発話のCTC損失を組み合わせ,句読点予測のF1スコアと単語誤り率(WER)を改良した。
論文 参考訳(メタデータ) (2023-06-02T06:46:14Z) - Semantic Segmentation with Bidirectional Language Models Improves
Long-form ASR [35.750921748001275]
音声中の意味論的完全文を分離し,長文音声の分節化手法を提案する。
これにより、ASRデコーダは、不要に遠くのコンテキストを処理できなくなり、同時に、現在の文内で関連するコンテキストが失われることを防止できる。
論文 参考訳(メタデータ) (2023-05-28T19:31:45Z) - Streaming Punctuation: A Novel Punctuation Technique Leveraging
Bidirectional Context for Continuous Speech Recognition [0.8670827427401333]
本稿では,動的デコードウィンドウを用いたASR出力の句読点や再句読点に対するストリーミング手法を提案する。
新しいシステムは過剰なセグメンテーションの問題に取り組み、セグメンテーションF0.5スコアを13.9%改善した。
論文 参考訳(メタデータ) (2023-01-10T07:07:20Z) - Iterative pseudo-forced alignment by acoustic CTC loss for
self-supervised ASR domain adaptation [80.12316877964558]
特定のドメインからの高品質なデータラベリングはコストと人的時間を要する。
本稿では,反復的擬力アライメントアルゴリズムに基づく自己教師付きドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2022-10-27T07:23:08Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - End to End ASR System with Automatic Punctuation Insertion [0.0]
本稿では,TED.com から入手可能な transcript を用いて TEDLium データセットの句読点書き起こしを生成する手法を提案する。
また,音声信号から単語と句を同時に出力するエンドツーエンドのASRシステムを提案する。
論文 参考訳(メタデータ) (2020-12-03T15:46:43Z) - Robust Prediction of Punctuation and Truecasing for Medical ASR [18.08508027663331]
本稿では,句読点と実測点の予測のための条件付き共同モデリングフレームワークを提案する。
また,医療領域データを用いた微調整型マスキング言語モデルによるドメイン・タスク特化手法を提案する。
論文 参考訳(メタデータ) (2020-07-04T07:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。