論文の概要: WeNet: Production First and Production Ready End-to-End Speech
Recognition Toolkit
- arxiv url: http://arxiv.org/abs/2102.01547v1
- Date: Tue, 2 Feb 2021 15:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 01:26:10.469923
- Title: WeNet: Production First and Production Ready End-to-End Speech
Recognition Toolkit
- Title(参考訳): WeNet: プロダクションファーストとプロダクションレディエンドツーエンドの音声認識ツールキット
- Authors: Binbin Zhang, Di Wu, Chao Yang, Xiaoyu Chen, Zhendong Peng, Xiangming
Wang, Zhuoyuan Yao, Xiong Wang, Fan Yu, Lei Xie, Xin Lei
- Abstract要約: WeNetという新しいオープンソース、プロダクションファースト、プロダクション・トゥ・エンド(E2E)音声認識ツールキットを提案する。
WeNetの主な動機は、E2E音声認識モデルの研究と生産のギャップを埋めることである。
WeNetは、いくつかの現実世界シナリオでASRアプリケーションを効果的に出荷する方法を提供する。
- 参考スコア(独自算出の注目度): 21.529758741580487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a new open source, production first and production
ready end-to-end (E2E) speech recognition toolkit named WeNet. The main
motivation of WeNet is to close the gap between the research and the production
of E2E speech recognition models. WeNet provides an efficient way to ship ASR
applications in several real-world scenarios, which is the main difference and
advantage to other open source E2E speech recognition toolkits. This paper
introduces WeNet from three aspects, including model architecture, framework
design and performance metrics. Our experiments on AISHELL-1 using WeNet, not
only give a promising character error rate (CER) on a unified streaming and
non-streaming two pass (U2) E2E model but also show reasonable RTF and latency,
both of these aspects are favored for production adoption. The toolkit is
publicly available at https://github.com/mobvoi/wenet.
- Abstract(参考訳): 本稿では、WeNetという新しいオープンソース、プロダクションファースト、プロダクション対応のエンドツーエンド(E2E)音声認識ツールキットを紹介します。
WeNetの主な動機は、E2E音声認識モデルの研究と製造の間のギャップを埋めることです。
WeNetは、ASRアプリケーションを複数の実世界のシナリオで展開する効率的な方法を提供しており、これは他のオープンソースのE2E音声認識ツールキットの主な違いと利点である。
本稿では、モデルアーキテクチャ、フレームワーク設計、パフォーマンスメトリクスを含む3つの側面からWeNetを紹介します。
WeNetを用いたAISHELL-1の実験では、統一されたストリーミングおよび非ストリーミング2パス(U2)E2Eモデル上で有望な文字誤り率(CER)を与えるだけでなく、合理的なRTFとレイテンシも示しています。
このツールキットはhttps://github.com/mobvoi/wenetで公開されている。
関連論文リスト
- TDFNet: An Efficient Audio-Visual Speech Separation Model with Top-down
Fusion [21.278294846228935]
Top-Down-Fusion Net (TDFNet) は、音声・視覚音声分離のための最先端(SOTA)モデルである。
TDFNetは、以前のSOTAメソッドであるCTCNetと比較して、すべてのパフォーマンス指標で最大10%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-01-25T13:47:22Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - End-to-End Speech to Intent Prediction to improve E-commerce Customer
Support Voicebot in Hindi and English [0.0]
本稿では、カスタマーサポート音声ボットタスクのためのエンドツーエンド(E2E)S2Iモデルをバイリンガル環境で論じる。
本稿では, 事前学習された自動音声認識(ASR)モデルを用いて, 少量の注釈付きデータセットを微調整することで, E2Eの意図分類を解く方法について述べる。
論文 参考訳(メタデータ) (2022-10-26T18:29:44Z) - A Language Agnostic Multilingual Streaming On-Device ASR System [40.01902403540186]
オンデバイス・エンド・ツー・エンド(E2E)モデルは、品質とレイテンシの両方において、英語音声検索タスクの従来のモデルよりも改善されている。
単言語モデルに匹敵する品質とレイテンシを持つデバイス上で完全に動作するストリーミングマルチリンガルE2E ASRシステムを提案する。
論文 参考訳(メタデータ) (2022-08-29T22:34:59Z) - WeNet 2.0: More Productive End-to-End Speech Recognition Toolkit [20.31788505823903]
WeNetは製品指向のエンドツーエンド音声認識ツールキットである。
本稿では,WeNet 2.0を4つの重要なアップデートで紹介する。
論文 参考訳(メタデータ) (2022-03-29T11:54:34Z) - Romanian Speech Recognition Experiments from the ROBIN Project [0.21485350418225244]
本稿では,高速(ネットワーク自体から100ms未満のレイテンシ)に焦点をあてたディープニューラルネットワークを用いた音声認識実験について述べる。
重要な特徴の1つは低レイテンシであるが、最終的なディープニューラルネットワークモデルは、ルーマニア語を認識するための技術結果の状態を達成している。
論文 参考訳(メタデータ) (2021-11-23T17:35:00Z) - ESPnet2-TTS: Extending the Edge of TTS Research [62.92178873052468]
ESPnet2-TTSは、E2E-TTS(E2E-TTS)ツールキットである。
新機能としては、オンザフライフレキシブルプリプロセッシング、ニューラルボコーダとのジョイントトレーニング、フルバンドE2Eテキスト・トゥ・ウェーブフォームモデリングのような拡張を備えた最先端のTSモデルなどがある。
論文 参考訳(メタデータ) (2021-10-15T03:27:45Z) - Compiling ONNX Neural Network Models Using MLIR [51.903932262028235]
本稿では,深層ニューラルネットワークモデルの推論のためのコードを生成するonnx-mlirコンパイラについて予備報告を行う。
Onnx-mlirは、最近LLVMプロジェクトに統合されたMulti-Level Intermediate Representation (MLIR)インフラストラクチャに依存している。
論文 参考訳(メタデータ) (2020-08-19T05:28:08Z) - BiO-Net: Learning Recurrent Bi-directional Connections for
Encoder-Decoder Architecture [82.64881585566825]
本稿では,新たな双方向O字型ネットワーク(BiO-Net)を提案する。
提案手法は,バニラU-Netおよび他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2020-07-01T05:07:49Z) - End-to-end Named Entity Recognition from English Speech [51.22888702264816]
ASRとNERのタグ付けコンポーネントを協調的に最適化するE2Eアプローチを提案する。
また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。
論文 参考訳(メタデータ) (2020-05-22T13:39:14Z) - ContextNet: Improving Convolutional Neural Networks for Automatic Speech
Recognition with Global Context [58.40112382877868]
ContextNet と呼ばれる新しい CNN-RNN-Transducer アーキテクチャを提案する。
ContextNetは、グローバルコンテキスト情報を畳み込みレイヤに組み込む、完全な畳み込みエンコーダを備えている。
クリーン/ノイズの多いLibriSpeechテストセット上では、ContextNetは、外部言語モデル(LM)なしで2.1%/4.6%、LMで1.9%/4.1%、および2.9%/7.0%のワードエラー率(WER)を達成した。
論文 参考訳(メタデータ) (2020-05-07T01:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。