論文の概要: WeNet 2.0: More Productive End-to-End Speech Recognition Toolkit
- arxiv url: http://arxiv.org/abs/2203.15455v1
- Date: Tue, 29 Mar 2022 11:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 23:33:11.642408
- Title: WeNet 2.0: More Productive End-to-End Speech Recognition Toolkit
- Title(参考訳): WeNet 2.0: より生産的なエンドツーエンド音声認識ツールキット
- Authors: Binbin Zhang, Di Wu, Zhendong Peng, Xingchen Song, Zhuoyuan Yao, Hang
Lv, Lei Xie, Chao Yang, Fuping Pan, Jianwei Niu
- Abstract要約: WeNetは製品指向のエンドツーエンド音声認識ツールキットである。
本稿では,WeNet 2.0を4つの重要なアップデートで紹介する。
- 参考スコア(独自算出の注目度): 20.31788505823903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, we made available WeNet, a production-oriented end-to-end speech
recognition toolkit, which introduces a unified two-pass (U2) framework and a
built-in runtime to address the streaming and non-streaming decoding modes in a
single model. To further improve ASR performance and facilitate various
production requirements, in this paper, we present WeNet 2.0 with four
important updates. (1) We propose U2++, a unified two-pass framework with
bidirectional attention decoders, which includes the future contextual
information by a right-to-left attention decoder to improve the representative
ability of the shared encoder and the performance during the rescoring stage.
(2) We introduce an n-gram based language model and a WFST-based decoder into
WeNet 2.0, promoting the use of rich text data in production scenarios. (3) We
design a unified contextual biasing framework, which leverages user-specific
context (e.g., contact lists) to provide rapid adaptation ability for
production and improves ASR accuracy in both with-LM and without-LM scenarios.
(4) We design a unified IO to support large-scale data for effective model
training. In summary, the brand-new WeNet 2.0 achieves up to 10\% relative
recognition performance improvement over the original WeNet on various corpora
and makes available several important production-oriented features.
- Abstract(参考訳): 近年,製品指向のエンドツーエンド音声認識ツールキットであるWeNetが利用可能となり,統一された2パス(U2)フレームワークと,単一モデルにおけるストリーミングおよび非ストリーミングデコーディングモードに対応する組込みランタイムが導入された。
本稿では,asrの性能をさらに向上し,様々な生産要件を容易にするために,4つの重要なアップデートを含むwenet 2.0を提案する。
1) 双方向注意デコーダを備えた統合型2パスフレームワークであるu2++を提案し, 共有エンコーダの代表的能力とリコーダ時の性能を向上させるため, 右から左への注意デコーダによる将来の文脈情報を含む。
2) n-gramベースの言語モデルとWFSTベースのデコーダをWeNet 2.0に導入し,実運用シナリオにおけるリッチテキストデータの利用を促進する。
(3) ユーザ固有のコンテキスト(連絡先リストなど)を活用する統合コンテキストバイアスフレームワークを設計し、生産に迅速に適応し、with-LMシナリオとless-LMシナリオの両方においてASR精度を向上させる。
(4) モデル学習に有効な大規模データをサポートする統合IOを設計する。
まとめると、新しいWeNet 2.0は、様々なコーパス上のオリジナルのWeNetよりも最大10%の相対的な認識性能向上を実現し、いくつかの重要なプロダクション指向の機能を提供している。
関連論文リスト
- Investigating Decoder-only Large Language Models for Speech-to-text Translation [39.17113782374464]
大規模言語モデル (LLM) は、様々なドメインにまたがる例外的な推論能力、一般化可能性、およびレイテンシで知られている。
我々は,LLMが直接符号化された音声表現を消費し,テキスト翻訳を生成することができるデコーダのみのアーキテクチャを提案する。
本モデルでは,プロプライエタリなデータを必要としないモデル間で,CoVoST 2およびFLEURSの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-03T14:42:49Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - A Language Agnostic Multilingual Streaming On-Device ASR System [40.01902403540186]
オンデバイス・エンド・ツー・エンド(E2E)モデルは、品質とレイテンシの両方において、英語音声検索タスクの従来のモデルよりも改善されている。
単言語モデルに匹敵する品質とレイテンシを持つデバイス上で完全に動作するストリーミングマルチリンガルE2E ASRシステムを提案する。
論文 参考訳(メタデータ) (2022-08-29T22:34:59Z) - E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。
本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文 参考訳(メタデータ) (2022-05-30T08:25:36Z) - Dual-stream Network for Visual Recognition [26.23838019591146]
本稿では、画像分類のための局所的およびグローバルなパターン特徴の表現能力を探索する汎用Dual-stream Network(DS-Net)を提案する。
我々のDS-Netは、細粒度と統合された機能を同時に計算し、それらを効率的に融合させることができる。
論文 参考訳(メタデータ) (2021-05-31T06:56:29Z) - WeNet: Production First and Production Ready End-to-End Speech
Recognition Toolkit [21.529758741580487]
WeNetという新しいオープンソース、プロダクションファースト、プロダクション・トゥ・エンド(E2E)音声認識ツールキットを提案する。
WeNetの主な動機は、E2E音声認識モデルの研究と生産のギャップを埋めることである。
WeNetは、いくつかの現実世界シナリオでASRアプリケーションを効果的に出荷する方法を提供する。
論文 参考訳(メタデータ) (2021-02-02T15:19:41Z) - BiO-Net: Learning Recurrent Bi-directional Connections for
Encoder-Decoder Architecture [82.64881585566825]
本稿では,新たな双方向O字型ネットワーク(BiO-Net)を提案する。
提案手法は,バニラU-Netおよび他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2020-07-01T05:07:49Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。