論文の概要: Semantic Segmentation with Bidirectional Language Models Improves
Long-form ASR
- arxiv url: http://arxiv.org/abs/2305.18419v1
- Date: Sun, 28 May 2023 19:31:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 21:25:09.667114
- Title: Semantic Segmentation with Bidirectional Language Models Improves
Long-form ASR
- Title(参考訳): 双方向言語モデルによるセマンティックセグメンテーションによる長期ASRの改善
- Authors: W. Ronny Huang, Hao Zhang, Shankar Kumar, Shuo-yiin Chang, Tara N.
Sainath
- Abstract要約: 音声中の意味論的完全文を分離し,長文音声の分節化手法を提案する。
これにより、ASRデコーダは、不要に遠くのコンテキストを処理できなくなり、同時に、現在の文内で関連するコンテキストが失われることを防止できる。
- 参考スコア(独自算出の注目度): 35.750921748001275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a method of segmenting long-form speech by separating semantically
complete sentences within the utterance. This prevents the ASR decoder from
needlessly processing faraway context while also preventing it from missing
relevant context within the current sentence. Semantically complete sentence
boundaries are typically demarcated by punctuation in written text; but
unfortunately, spoken real-world utterances rarely contain punctuation. We
address this limitation by distilling punctuation knowledge from a
bidirectional teacher language model (LM) trained on written, punctuated text.
We compare our segmenter, which is distilled from the LM teacher, against a
segmenter distilled from a acoustic-pause-based teacher used in other works, on
a streaming ASR pipeline. The pipeline with our segmenter achieves a 3.2%
relative WER gain along with a 60 ms median end-of-segment latency reduction on
a YouTube captioning task.
- Abstract(参考訳): 音声中の意味論的完全文を分離し,長文音声を分割する手法を提案する。
これにより、ASRデコーダは不要に遠くのコンテキストを処理できなくなると同時に、現在の文内で関連するコンテキストが失われることを防ぐことができる。
意味論的に完全な文境界は典型的には句読点によって区切られるが、残念ながら実世界の発話には句読点がほとんど含まれない。
本研究は,文章・句読点に基づく双方向教師言語モデル(LM)から句読点知識を抽出することにより,この制限に対処する。
本研究は, LM教師から蒸留したセグメンタと, 他の作品で使用されている音響ポーズベースの教師から蒸留したセグメンタとを, ストリーミングASRパイプラインで比較した。
当社のsegmenterを使ったパイプラインは、youtubeのキャプションタスクにおいて、平均60msのレイテンシ削減とともに、平均3.2%のwarゲインを達成しています。
関連論文リスト
- SSR: Alignment-Aware Modality Connector for Speech Language Models [23.859649312290447]
事前訓練された言語モデル(SpeechLM)に音声を融合することは、通常、長文音声の非効率な符号化や、事前訓練されたテキストのモダリティの破滅的な忘れ込みに悩まされる。
そこで我々は,SSR-Connector (Segmented Speech Representation Connector) を提案する。
論文 参考訳(メタデータ) (2024-09-30T19:17:46Z) - REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR [54.64158282822995]
教師なしASRにおける反復訓練を用いたREBORN, Reinforcement-Learned boundaryを提案する。
ReBORNは、音声信号におけるセグメント構造の境界を予測するセグメンテーションモデルのトレーニングと、セグメンテーションモデルによってセグメント化された音声特徴である音素予測モデルのトレーニングを交互に行い、音素転写を予測する。
我々は、広範囲にわたる実験を行い、同じ条件下で、REBORNは、LibriSpeech、TIMIT、および5つの非英語言語において、以前の教師なしASRモデルよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-02-06T13:26:19Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation [65.6736056006381]
85言語を対象とした多言語句読解文セグメンテーション法を提案する。
提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。
MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
論文 参考訳(メタデータ) (2023-05-30T09:49:42Z) - Boosting Weakly-Supervised Temporal Action Localization with Text
Information [94.48602948837664]
本稿では,アクションクラスラベルに基づくテキスト記述を構築するためのテキストセグメンテーション・マイニング(TSM)機構を提案する。
また,VLC (Video-text Language Completion) という生成目的も導入した。
また,提案手法を既存手法にシームレスに適用し,その性能を明確なマージンで向上させることができる。
論文 参考訳(メタデータ) (2023-05-01T00:07:09Z) - Cascading and Direct Approaches to Unsupervised Constituency Parsing on
Spoken Sentences [67.37544997614646]
本研究は,教師なし音声補聴における最初の研究である。
目的は, 音声文の階層的構文構造を, 選挙区解析木の形で決定することである。
正確なセグメンテーションだけでは、音声文を正確に解析するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-03-15T17:57:22Z) - Streaming Punctuation: A Novel Punctuation Technique Leveraging
Bidirectional Context for Continuous Speech Recognition [0.8670827427401333]
本稿では,動的デコードウィンドウを用いたASR出力の句読点や再句読点に対するストリーミング手法を提案する。
新しいシステムは過剰なセグメンテーションの問題に取り組み、セグメンテーションF0.5スコアを13.9%改善した。
論文 参考訳(メタデータ) (2023-01-10T07:07:20Z) - Streaming Punctuation for Long-form Dictation with Transformers [0.8670827427401333]
ストリーミング句読点は、機械翻訳の下流タスクに対して平均BLEUスコアゲイン0.66を達成する。
新しいシステムは過剰セグメンテーションの問題に取り組み、セグメンテーションF0.5スコアを13.9%改善した。
論文 参考訳(メタデータ) (2022-10-11T20:03:03Z) - Speech Segmentation Optimization using Segmented Bilingual Speech Corpus
for End-to-end Speech Translation [16.630616128169372]
セグメント化バイリンガル音声コーパスを用いて訓練された二分分類モデルを用いた音声セグメント化手法を提案する。
実験の結果,提案手法は従来のセグメンテーション法よりもカスケードおよびエンド・ツー・エンドのSTシステムに適していることがわかった。
論文 参考訳(メタデータ) (2022-03-29T12:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。