論文の概要: E2E Segmentation in a Two-Pass Cascaded Encoder ASR Model
- arxiv url: http://arxiv.org/abs/2211.15432v1
- Date: Mon, 28 Nov 2022 15:18:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 17:36:04.715602
- Title: E2E Segmentation in a Two-Pass Cascaded Encoder ASR Model
- Title(参考訳): 2パスカスケードエンコーダASRモデルにおけるE2Eセグメンテーション
- Authors: W. Ronny Huang, Shuo-Yiin Chang, Tara N. Sainath, Yanzhang He, David
Rybach, Robert David, Rohit Prabhavalkar, Cyril Allauzen, Cal Peyser, Trevor
D. Strohman
- Abstract要約: 2パスのカスケードエンコーダASRとニューラルセグメンタを1つのモデルに統合することを検討する。
重要な課題は、セグメンタがユーザーの認識したレイテンシや推論中の削除エラーを発生させることなく、第2パスをファイナライズできるようにすることである。
本稿では,ニューラルセグメンタを因果1stパスデコーダと一体化して実時間でエンド・オブ・セグメンション(EOS)信号を出力する設計を提案し,そのEOS信号を用いて非因果2ndパスを確定する。
- 参考スコア(独自算出の注目度): 38.861804482750635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore unifying a neural segmenter with two-pass cascaded encoder ASR
into a single model. A key challenge is allowing the segmenter (which runs in
real-time, synchronously with the decoder) to finalize the 2nd pass (which runs
900 ms behind real-time) without introducing user-perceived latency or deletion
errors during inference. We propose a design where the neural segmenter is
integrated with the causal 1st pass decoder to emit a end-of-segment (EOS)
signal in real-time. The EOS signal is then used to finalize the non-causal 2nd
pass. We experiment with different ways to finalize the 2nd pass, and find that
a novel dummy frame injection strategy allows for simultaneous high quality 2nd
pass results and low finalization latency. On a real-world long-form captioning
task (YouTube), we achieve 2.4% relative WER and 140 ms EOS latency gains over
a baseline VAD-based segmenter with the same cascaded encoder.
- Abstract(参考訳): 2パスのカスケードエンコーダASRとニューラルセグメンタを1つのモデルに統合することを検討する。
重要な課題は、セグメンタ(デコーダと同期してリアルタイムに実行される)が、推論中にユーザの認識したレイテンシや削除エラーを発生させることなく、第2パス(リアルタイムに900msの後方で動作する)をファイナライズできるようにすることである。
本稿では,ニューラルセグメンタを1stパスデコーダと統合して終端信号(EOS)をリアルタイムに出力する設計を提案する。
EOS信号は、非因果性第2パスのファイナライズに使用される。
第2パスをファイナライズする方法を試作し,新しいダミーフレームインジェクション戦略により,高品質な第2パスと低ファイナライズ遅延を同時に実現できることを確認した。
実世界の長文キャプションタスク(YouTube)では、2.4%の相対的なWERと140ミリ秒のEOSレイテンシを、同じカスケードエンコーダを持つベースラインのVADベースのセグメンタで達成している。
関連論文リスト
- TIM: A Time Interval Machine for Audio-Visual Action Recognition [64.24297230981168]
音声と視覚イベントの時間的範囲を明示的にモデル化することで、長いビデオにおける2つのモード間の相互作用に対処する。
本稿では,TIM (Time Interval Machine) を提案する。
我々は、EPIC-KITCHENS、Perception Test、AVEの3つの長い音声視覚ビデオデータセットでTIMをテストする。
論文 参考訳(メタデータ) (2024-04-08T14:30:42Z) - SODFormer: Streaming Object Detection with Transformer Using Events and
Frames [31.293847706713052]
DAカメラは、非同期イベントとフレームの相補的な2つのモードをストリーミングする。
本稿では,SODFormerを用いた新しいストリーミングオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T04:53:52Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - D^2ETR: Decoder-Only DETR with Computationally Efficient Cross-Scale
Attention [27.354159713970322]
我々はD2ETRと呼ばれるデコーダのみの検出器を提案する。
エンコーダがない場合、デコーダはTransformerのバックボーンによって生成された細分化された特徴マップに直接出席する。
D2ETRはCOCOベンチマークの評価において計算複雑性が低く、高い検出精度を示す。
論文 参考訳(メタデータ) (2022-03-02T04:21:12Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech
Recognition [19.971343876930767]
ストリーミングと非ストリーミングエンドツーエンド(E2E)音声認識を1つのモデルで統一する,新たな2パス方式を提案する。
本モデルでは,エンコーダのコンフォメータ層を改良したハイブリッドCTC/アテンションアーキテクチャを採用している。
オープンな170時間AISHELL-1データセットの実験により、提案手法はストリーミングモデルと非ストリーミングモデルを簡便かつ効率的に統一できることを示した。
論文 参考訳(メタデータ) (2020-12-10T06:54:54Z) - Minimum Latency Training Strategies for Streaming Sequence-to-Sequence
ASR [44.229256049718316]
線形時間復号複雑性を伴うオンライン音声認識を実現するために,ストリームアテンションに基づくシーケンス・ツー・シーケンス(S2S)モデルが提案されている。
これらのモデルでは、一方向エンコーダには将来的な情報がないため、実際の音響境界よりもトークンを生成する決定が遅れる。
本稿では,ハイブリッドモデルから抽出した外部ハードアライメントを活用することで,トレーニング中のいくつかの戦略を提案する。
Cortana音声検索タスクの実験により,提案手法は遅延を著しく低減し,デコーダ側の特定の場合の認識精度も向上することを示した。
論文 参考訳(メタデータ) (2020-04-10T12:24:49Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。