論文の概要: Streaming Punctuation: A Novel Punctuation Technique Leveraging
Bidirectional Context for Continuous Speech Recognition
- arxiv url: http://arxiv.org/abs/2301.03819v1
- Date: Tue, 10 Jan 2023 07:07:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 16:45:36.430842
- Title: Streaming Punctuation: A Novel Punctuation Technique Leveraging
Bidirectional Context for Continuous Speech Recognition
- Title(参考訳): 連続音声認識のための双方向文脈を利用した新しい句読解手法
- Authors: Piyush Behre, Sharman Tan, Padma Varadharajan and Shuangyu Chang
- Abstract要約: 本稿では,動的デコードウィンドウを用いたASR出力の句読点や再句読点に対するストリーミング手法を提案する。
新しいシステムは過剰なセグメンテーションの問題に取り組み、セグメンテーションF0.5スコアを13.9%改善した。
- 参考スコア(独自算出の注目度): 0.8670827427401333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While speech recognition Word Error Rate (WER) has reached human parity for
English, continuous speech recognition scenarios such as voice typing and
meeting transcriptions still suffer from segmentation and punctuation problems,
resulting from irregular pausing patterns or slow speakers. Transformer
sequence tagging models are effective at capturing long bi-directional context,
which is crucial for automatic punctuation. Automatic Speech Recognition (ASR)
production systems, however, are constrained by real-time requirements, making
it hard to incorporate the right context when making punctuation decisions.
Context within the segments produced by ASR decoders can be helpful but
limiting in overall punctuation performance for a continuous speech session. In
this paper, we propose a streaming approach for punctuation or re-punctuation
of ASR output using dynamic decoding windows and measure its impact on
punctuation and segmentation accuracy across scenarios. The new system tackles
over-segmentation issues, improving segmentation F0.5-score by 13.9%. Streaming
punctuation achieves an average BLEUscore improvement of 0.66 for the
downstream task of Machine Translation (MT).
- Abstract(参考訳): 音声認識における単語誤り率 (WER) は英語では人間と同等であるが、音声タイピングやミーティングの書き起こしなどの連続音声認識シナリオは、いまだにセグメンテーションや句読点の問題に悩まされており、不規則なポーズパターンや遅い話者が原因である。
トランスフォーマーシーケンスのタグ付けモデルは、自動句読点に不可欠である長い双方向コンテキストのキャプチャに有効である。
しかし、自動音声認識(ASR)生産システムは、リアルタイムな要求によって制約されており、句読点決定を行う際に適切なコンテキストを組み込むことが困難である。
asrデコーダが生成するセグメント内のコンテキストは、連続音声セッションの句読点全体のパフォーマンスを制限しながらも有用である。
本稿では,動的復号窓を用いたasr出力の句読点や再句読点に対するストリーミング手法を提案し,シナリオ間の句読点やセグメント精度への影響を計測する。
新しいシステムは過剰なセグメンテーションの問題に取り組み、セグメンテーションF0.5スコアを13.9%改善した。
ストリームの句読点は、機械翻訳(MT)の下流タスクにおいて平均BLEUスコアの改善率0.66を達成する。
関連論文リスト
- A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - Improved Training for End-to-End Streaming Automatic Speech Recognition
Model with Punctuation [0.08602553195689511]
本研究では,コネクショニスト時間分類(CTC)の損失を学習したチャンクベースのトランスフォーマーエンコーダを用いて,入力音声から句読影テキストを予測する手法を提案する。
チャンクと発話のCTC損失を組み合わせ,句読点予測のF1スコアと単語誤り率(WER)を改良した。
論文 参考訳(メタデータ) (2023-06-02T06:46:14Z) - Semantic Segmentation with Bidirectional Language Models Improves
Long-form ASR [35.750921748001275]
音声中の意味論的完全文を分離し,長文音声の分節化手法を提案する。
これにより、ASRデコーダは、不要に遠くのコンテキストを処理できなくなり、同時に、現在の文内で関連するコンテキストが失われることを防止できる。
論文 参考訳(メタデータ) (2023-05-28T19:31:45Z) - Smart Speech Segmentation using Acousto-Linguistic Features with
look-ahead [3.579111205766969]
本稿では,音響情報と言語情報を併用してセグメンテーションを改善するハイブリッド手法を提案する。
平均して、私たちのモデルはセグメンテーション-F0.5スコアをベースラインで9.8%改善します。
機械翻訳の下流タスクでは、BLEUスコアを平均1.05ポイント改善する。
論文 参考訳(メタデータ) (2022-10-26T03:36:31Z) - Streaming Punctuation for Long-form Dictation with Transformers [0.8670827427401333]
ストリーミング句読点は、機械翻訳の下流タスクに対して平均BLEUスコアゲイン0.66を達成する。
新しいシステムは過剰セグメンテーションの問題に取り組み、セグメンテーションF0.5スコアを13.9%改善した。
論文 参考訳(メタデータ) (2022-10-11T20:03:03Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - Robust Prediction of Punctuation and Truecasing for Medical ASR [18.08508027663331]
本稿では,句読点と実測点の予測のための条件付き共同モデリングフレームワークを提案する。
また,医療領域データを用いた微調整型マスキング言語モデルによるドメイン・タスク特化手法を提案する。
論文 参考訳(メタデータ) (2020-07-04T07:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。