論文の概要: Scaling Up Online Speech Recognition Using ConvNets
- arxiv url: http://arxiv.org/abs/2001.09727v1
- Date: Mon, 27 Jan 2020 12:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 08:23:58.659636
- Title: Scaling Up Online Speech Recognition Using ConvNets
- Title(参考訳): ConvNetsを用いたオンライン音声認識のスケールアップ
- Authors: Vineel Pratap, Qiantong Xu, Jacob Kahn, Gilad Avidov, Tatiana
Likhomanenko, Awni Hannun, Vitaliy Liptchinsky, Gabriel Synnaeve, Ronan
Collobert
- Abstract要約: 我々は、TDS(Time-Depth Separable)畳み込みとCTC(Connectionist Temporal Classification)に基づくオンラインエンドツーエンド音声認識システムを設計する。
我々は,将来的なコンテキストを制限し,精度を維持しながらレイテンシを低減するため,コアTDSアーキテクチャを改善した。
このシステムは、よく調整されたハイブリッドASRベースラインの3倍のスループットを持ち、レイテンシも低く、単語エラー率も優れている。
- 参考スコア(独自算出の注目度): 33.75588539732141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We design an online end-to-end speech recognition system based on Time-Depth
Separable (TDS) convolutions and Connectionist Temporal Classification (CTC).
We improve the core TDS architecture in order to limit the future context and
hence reduce latency while maintaining accuracy. The system has almost three
times the throughput of a well tuned hybrid ASR baseline while also having
lower latency and a better word error rate. Also important to the efficiency of
the recognizer is our highly optimized beam search decoder. To show the impact
of our design choices, we analyze throughput, latency, accuracy, and discuss
how these metrics can be tuned based on the user requirements.
- Abstract(参考訳): 我々はTDS(Time-Depth Separable)畳み込みとCTC(Connectionist Temporal Classification)に基づくオンラインエンドツーエンド音声認識システムの設計を行う。
我々は,将来的なコンテキストを制限し,精度を維持しながらレイテンシを低減するため,コアTDSアーキテクチャを改善した。
このシステムは、よく調整されたハイブリッドASRベースラインの3倍のスループットを持ち、レイテンシも低く、単語エラー率も優れている。
また、認識器の効率性には、高度に最適化されたビーム探索デコーダも重要です。
設計選択の影響を示すために、スループット、レイテンシ、正確性を分析し、ユーザ要求に基づいてこれらのメトリクスをどのように調整できるかを議論します。
関連論文リスト
- Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Semantic Communication Enabling Robust Edge Intelligence for
Time-Critical IoT Applications [87.05763097471487]
本稿では、時間クリティカルなIoTアプリケーションのためのセマンティック通信を用いて、堅牢なエッジインテリジェンスを設計することを目的とする。
本稿では,画像DCT係数が推定精度に与える影響を解析し,オフロードのためのチャネル非依存の有効性符号化を提案する。
論文 参考訳(メタデータ) (2022-11-24T20:13:17Z) - An Intelligent Deterministic Scheduling Method for Ultra-Low Latency
Communication in Edge Enabled Industrial Internet of Things [19.277349546331557]
時間知覚ネットワーク (TSN) は, 決定論的スケジューリングによる低遅延通信を実現するために最近研究されている。
非衝突理論に基づく決定論的スケジューリング (NDS) 法を提案し, 時間に敏感な流れに対する超低遅延通信を実現する。
実験の結果,NDS/DQSは決定論的超低レイテンシサービスを十分にサポートし,帯域幅の有効利用を保証できることがわかった。
論文 参考訳(メタデータ) (2022-07-17T16:52:51Z) - Adding Connectionist Temporal Summarization into Conformer to Improve
Its Decoder Efficiency For Speech Recognition [22.61761934996406]
本稿では,アテンションデコーダに必要なフレーム数を削減できる新しいコネクショニスト時間要約法を提案する。
ビーム幅が4で、LibriSpeechの復号化予算は最大20%削減できる。
単語誤り率(WER)はビーム幅1で6%、ビーム幅4で3%減少する。
論文 参考訳(メタデータ) (2022-04-08T07:24:00Z) - End-to-End Neural Audio Coding for Real-Time Communications [22.699018098484707]
本稿では、リアルタイム通信(RTC)のための低レイテンシでエンドツーエンドのニューラルオーディオシステムTFNetを提案する。
短期的および長期的両方の時間的依存関係をキャプチャするために,時間的フィルタリングのためのインターリーブ構造を提案する。
エンドツーエンドの最適化により、TFNetは音声強調とパケットロスの隠蔽を共同で最適化し、3つのタスクに1対1のネットワークを提供する。
論文 参考訳(メタデータ) (2022-01-24T03:06:30Z) - An Investigation of Enhancing CTC Model for Triggered Attention-based
Streaming ASR [19.668440671541546]
Mask-CTCとトリガアテンション機構を組み合わせることで、ストリーミングエンドツーエンド自動音声認識(ASR)システムを構築する。
提案手法は従来のトリガアテンションベースのストリーミングASRシステムよりも低レイテンシで高い精度を実現する。
論文 参考訳(メタデータ) (2021-10-20T06:44:58Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。