論文の概要: A Language Agnostic Multilingual Streaming On-Device ASR System
- arxiv url: http://arxiv.org/abs/2208.13916v1
- Date: Mon, 29 Aug 2022 22:34:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 13:27:05.577230
- Title: A Language Agnostic Multilingual Streaming On-Device ASR System
- Title(参考訳): 言語に依存しないマルチ言語ストリーミングオンデバイスASRシステム
- Authors: Bo Li, Tara N. Sainath, Ruoming Pang, Shuo-yiin Chang, Qiumin Xu,
Trevor Strohman, Vince Chen, Qiao Liang, Heguang Liu, Yanzhang He, Parisa
Haghani, Sameer Bidichandani
- Abstract要約: オンデバイス・エンド・ツー・エンド(E2E)モデルは、品質とレイテンシの両方において、英語音声検索タスクの従来のモデルよりも改善されている。
単言語モデルに匹敵する品質とレイテンシを持つデバイス上で完全に動作するストリーミングマルチリンガルE2E ASRシステムを提案する。
- 参考スコア(独自算出の注目度): 40.01902403540186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-device end-to-end (E2E) models have shown improvements over a conventional
model on English Voice Search tasks in both quality and latency. E2E models
have also shown promising results for multilingual automatic speech recognition
(ASR). In this paper, we extend our previous capacity solution to streaming
applications and present a streaming multilingual E2E ASR system that runs
fully on device with comparable quality and latency to individual monolingual
models. To achieve that, we propose an Encoder Endpointer model and an
End-of-Utterance (EOU) Joint Layer for a better quality and latency trade-off.
Our system is built in a language agnostic manner allowing it to natively
support intersentential code switching in real time. To address the feasibility
concerns on large models, we conducted on-device profiling and replaced the
time consuming LSTM decoder with the recently developed Embedding decoder. With
these changes, we managed to run such a system on a mobile device in less than
real time.
- Abstract(参考訳): オンデバイス・エンド・ツー・エンド(E2E)モデルは、品質とレイテンシの両方において、英語音声検索タスクの従来のモデルよりも改善されている。
E2Eモデルは多言語自動音声認識(ASR)にも有望な結果を示している。
本稿では,従来のキャパシティソリューションをストリーミングアプリケーションに拡張し,個々のモノリンガルモデルに匹敵する品質とレイテンシを持つデバイス上で動作するストリーミングマルチリンガルE2E ASRシステムを提案する。
そこで我々は,Encoder EndpointerモデルとEnd-of-Utterance (EOU) Joint Layerを提案する。
我々のシステムは言語に依存しない方法で構築されており、相互コード切り替えをリアルタイムでネイティブにサポートする。
大型モデルの実現可能性に対処するため、デバイス上でのプロファイリングを行い、LSTMデコーダを最近開発されたエンベディングデコーダに置き換えた。
これらの変更により、そのようなシステムをモバイルデバイス上でリアルタイムに実行することができたのです。
関連論文リスト
- Non-autoregressive real-time Accent Conversion model with voice cloning [0.0]
我々は音声クローンを用いたリアルタイムアクセント変換のための非自己回帰モデルを開発した。
このモデルは入力L2音声に基づいて最小レイテンシでネイティブなL1音声を生成する。
このモデルは、話者の声の音色、性別、アクセントをリアルタイムで保存し、クローンし、変更することができる。
論文 参考訳(メタデータ) (2024-05-21T19:07:26Z) - Gated Low-rank Adaptation for personalized Code-Switching Automatic Speech Recognition on the low-spec devices [28.06179341376626]
性能劣化を最小限に抑えたパラメータ効率の良い微調整のためのゲートローランク適応(GLoRA)を導入する。
韓国語と英語のコードスイッチングデータセットを用いて実験を行い、コードスイッチングのための微調整音声認識モデルが、スクラッチから訓練された従来のコードスイッチング音声認識モデルの性能を上回ることを示した。
論文 参考訳(メタデータ) (2024-04-24T01:31:39Z) - Adapting Multi-Lingual ASR Models for Handling Multiple Talkers [63.151811561972515]
最先端の大規模音声モデル(USM)は、複数のドメインや言語にまたがる適切な自動音声認識(ASR)性能を示す。
マルチストーカーASRに対するUSMの適応手法を提案する。
まず,マルチストーカーASRと発話タイムスタンプ予測を共同で行うシリアライズ出力訓練の強化版を開発する。
論文 参考訳(メタデータ) (2023-05-30T05:05:52Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Two-Pass Low Latency End-to-End Spoken Language Understanding [36.81762807197944]
我々は,E2E-SLUフレームワーク内にラベル付きテキストデータに基づいて事前学習した言語モデルを組み込んで,強力な意味表現を構築した。
本研究では,第1パスの音声数秒の音響情報を用いて低遅延予測を行う2パスSLUシステムを開発した。
私たちのコードとモデルは、ESPnet-SLUツールキットの一部として公開されています。
論文 参考訳(メタデータ) (2022-07-14T05:50:16Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - MeetDot: Videoconferencing with Live Translation Captions [18.60812558978417]
本稿では,ビデオ会議システムであるMeetDotについて紹介する。
本システムでは、4言語での音声とキャプションをサポートし、自動音声認識(ASR)と機械翻訳(MT)をカスケードで組み合わせる。
我々は,スムーズなスクロールキャプションやキャプションフリックの削減など,ユーザエクスペリエンスの向上と認知負荷の低減のために,いくつかの機能を実装した。
論文 参考訳(メタデータ) (2021-09-20T14:34:14Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。