論文の概要: Enhancing the Unified Streaming and Non-streaming Model with Contrastive
Learning
- arxiv url: http://arxiv.org/abs/2306.00755v1
- Date: Thu, 1 Jun 2023 14:50:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 15:25:38.154373
- Title: Enhancing the Unified Streaming and Non-streaming Model with Contrastive
Learning
- Title(参考訳): コントラスト学習による統合ストリーミングと非ストリーミングモデルの強化
- Authors: Yuting Yang, Yuke Li, Binbin Du
- Abstract要約: 本稿では,ストリーミングモードと非ストリーミングモードの表現ギャップを埋めることで,統一モデルの精度を向上させることを提案する。
本手法は,ストリーミングモードでは4.66%,非ストリーミングモードでは4.31%,AISHELL-1ベンチマークでは4.31%のCERを実現する。
- 参考スコア(独自算出の注目度): 9.930655347717932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The unified streaming and non-streaming speech recognition model has achieved
great success due to its comprehensive capabilities. In this paper, we propose
to improve the accuracy of the unified model by bridging the inherent
representation gap between the streaming and non-streaming modes with a
contrastive objective. Specifically, the top-layer hidden representation at the
same frame of the streaming and non-streaming modes are regarded as a positive
pair, encouraging the representation of the streaming mode close to its
non-streaming counterpart. The multiple negative samples are randomly selected
from the rest frames of the same sample under the non-streaming mode.
Experimental results demonstrate that the proposed method achieves consistent
improvements toward the unified model in both streaming and non-streaming
modes. Our method achieves CER of 4.66% in the streaming mode and CER of 4.31%
in the non-streaming mode, which sets a new state-of-the-art on the AISHELL-1
benchmark.
- Abstract(参考訳): 統合ストリーミングと非ストリーミング音声認識モデルは、その包括的能力によって大きな成功を収めた。
本稿では,ストリーミングモードと非ストリーミングモード間の固有表現ギャップを対比目的に橋渡しすることにより,統一モデルの精度を向上させることを提案する。
具体的には、ストリーミングモードと非ストリーミングモードの同一フレームにおけるトップレイヤ隠れ表現は正のペアと見なされ、非ストリーミングモードに近いストリーミングモードの表現を促進する。
複数の負のサンプルは、非ストリーミングモード下で同じサンプルの残りのフレームからランダムに選択される。
実験により,提案手法はストリーミングモードと非ストリーミングモードの両方において,統一モデルに対する一貫した改善を実現することを示した。
本手法は,ストリーミングモードでは4.66%,非ストリーミングモードでは4.31%,AISHELL-1ベンチマークでは4.31%のCERを実現する。
関連論文リスト
- Diffusion-based Unsupervised Audio-visual Speech Enhancement [26.937216751657697]
本稿では,新しい教師なし音声強調(AVSE)手法を提案する。
拡散に基づく音声視覚音声生成モデルと非負行列分解(NMF)ノイズモデルを組み合わせる。
実験結果から,提案手法は音声のみのアプローチより優れているだけでなく,近年の教師付き AVSE 法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-10-04T12:22:54Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion [88.8198344514677]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計されたフレームワークであるAdaDiffを紹介する。
AdaDiffはポリシー勾配法を用いて最適化され、慎重に設計された報酬関数を最大化する。
提案手法は,固定された50ステップを用いて,ベースラインと比較して視覚的品質の点で同様の結果が得られる。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Underwater Image Enhancement by Transformer-based Diffusion Model with
Non-uniform Sampling for Skip Strategy [2.056162650908794]
水中シーンにおける拡散モデルを用いた画像強調手法を提案する。
本手法は,条件付き拡散確率モデルに適応し,対応する拡張画像を生成する。
実験結果から,本手法は競争性能と高い効率を両立できることが示された。
論文 参考訳(メタデータ) (2023-09-07T01:58:06Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Streaming Align-Refine for Non-autoregressive Deliberation [42.748839817396046]
本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。
提案アルゴリズムは,単純なグリーディ復号処理を容易にし,同時に各フレームにおける復号結果を,限られた適切なコンテキストで生成することができる。
音声検索データセットとLibrispeechの実験は、合理的な適切なコンテキストで、ストリーミングモデルがオフラインと同等に動作していることを示しています。
論文 参考訳(メタデータ) (2022-04-15T17:24:39Z) - Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech
Recognition [19.971343876930767]
ストリーミングと非ストリーミングエンドツーエンド(E2E)音声認識を1つのモデルで統一する,新たな2パス方式を提案する。
本モデルでは,エンコーダのコンフォメータ層を改良したハイブリッドCTC/アテンションアーキテクチャを採用している。
オープンな170時間AISHELL-1データセットの実験により、提案手法はストリーミングモデルと非ストリーミングモデルを簡便かつ効率的に統一できることを示した。
論文 参考訳(メタデータ) (2020-12-10T06:54:54Z) - Cascaded encoders for unifying streaming and non-streaming ASR [68.62941009369125]
この研究は、両方のモードで同時に動作可能な単一のE2E ASRモデルを構築するためのカスケードエンコーダを提示する。
シングルデコーダは、ストリーミングの出力または非ストリーミングエンコーダを使用してデコーダを学習する。
その結果,このモデルはストリーミングモードで動作する場合,スタンドアロンのストリーミングモデルと同様のワードエラー率(WER)を実現し,非ストリーミングモードで動作する場合,10%~27%の相対的改善が得られた。
論文 参考訳(メタデータ) (2020-10-27T20:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。