Fugu-MT 論文翻訳(概要): Scaling Up Online Speech Recognition Using ConvNets

論文の概要: Scaling Up Online Speech Recognition Using ConvNets

arxiv url: http://arxiv.org/abs/2001.09727v1
Date: Mon, 27 Jan 2020 12:55:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-06 08:23:58.659636
Title: Scaling Up Online Speech Recognition Using ConvNets
Title（参考訳）: ConvNetsを用いたオンライン音声認識のスケールアップ
Authors: Vineel Pratap, Qiantong Xu, Jacob Kahn, Gilad Avidov, Tatiana Likhomanenko, Awni Hannun, Vitaliy Liptchinsky, Gabriel Synnaeve, Ronan Collobert
Abstract要約: 我々は、TDS(Time-Depth Separable)畳み込みとCTC(Connectionist Temporal Classification)に基づくオンラインエンドツーエンド音声認識システムを設計する。我々は,将来的なコンテキストを制限し,精度を維持しながらレイテンシを低減するため,コアTDSアーキテクチャを改善した。このシステムは、よく調整されたハイブリッドASRベースラインの3倍のスループットを持ち、レイテンシも低く、単語エラー率も優れている。
参考スコア（独自算出の注目度）: 33.75588539732141
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We design an online end-to-end speech recognition system based on Time-Depth Separable (TDS) convolutions and Connectionist Temporal Classification (CTC). We improve the core TDS architecture in order to limit the future context and hence reduce latency while maintaining accuracy. The system has almost three times the throughput of a well tuned hybrid ASR baseline while also having lower latency and a better word error rate. Also important to the efficiency of the recognizer is our highly optimized beam search decoder. To show the impact of our design choices, we analyze throughput, latency, accuracy, and discuss how these metrics can be tuned based on the user requirements.
Abstract（参考訳）: 我々はTDS(Time-Depth Separable)畳み込みとCTC(Connectionist Temporal Classification)に基づくオンラインエンドツーエンド音声認識システムの設計を行う。我々は,将来的なコンテキストを制限し,精度を維持しながらレイテンシを低減するため,コアTDSアーキテクチャを改善した。このシステムは、よく調整されたハイブリッドASRベースラインの3倍のスループットを持ち、レイテンシも低く、単語エラー率も優れている。また、認識器の効率性には、高度に最適化されたビーム探索デコーダも重要です。設計選択の影響を示すために、スループット、レイテンシ、正確性を分析し、ユーザ要求に基づいてこれらのメトリクスをどのように調整できるかを議論します。

関連論文リスト

Moonshine v2: Ergodic Streaming Encoder ASR for Latency-Critical Speech Applications [0.8691520242484038]
フルアテンショントランスフォーマーエンコーダは、音声認識(ASR)のための強力な精度ベースラインのままである本稿では、スライディングウインドウ自己アテンションを用いて、有界低レイテンシ推論を実現するエルゴードストリーミングエンコーダASRモデルv2を紹介する。提案モデルでは,標準ベンチマーク間での単語誤り率の状態を達成し,モデルのサイズを6倍にし,性能を著しく向上した。
論文参考訳（メタデータ） (2026-02-12T18:20:45Z)
Three factor delay learning rules for spiking neural networks [0.42970700836450487]
シナプスおよび軸索遅延を導入し, リーク・アンド・ファイア(LIF)をベースとしたフィードフォワードとリカレントSNNを統合した。オンライン上で遅延パラメータを同時に学習するための3つの制約付き学習ルールを提案する。本研究は、デバイス上での学習を可能にし、メモリ要求を低くすることで、パワーと領域制約のあるニューロモルフィックプロセッサの設計に有効である。
論文参考訳（メタデータ） (2026-01-02T12:28:53Z)
Breaking Through the Spike: Spike Window Decoding for Accelerated and Precise Automatic Speech Recognition [26.665132884613477]
Spike Window Decodingアルゴリズムは、WFSTでデコードされたフレームの数をCTC出力のスパイクフレームの数と線形に関連付けることにより、推論速度を大幅に改善する。提案手法は,AISHELL-1と大規模In-Houseデータセットの両方で証明された復号速度を大幅に向上させ,SOTA認識精度を実現する。
論文参考訳（メタデータ） (2025-01-01T12:20:07Z)
An Efficient and Streaming Audio Visual Active Speaker Detection System [2.4515389321702132]
リアルタイム制約によって引き起こされる重要な課題に対処するシナリオを2つ提示する。まず,ASDモデルを用いた将来のコンテキストフレーム数を制限する手法を提案する。第二に、モデルが推論時にアクセス可能な過去のフレームの総数を制限する、より厳密な制約を提案する。
論文参考訳（メタデータ） (2024-09-13T17:45:53Z)
Systematic Evaluation of Online Speaker Diarization Systems Regarding their Latency [44.99833362998488]
遅延とは、音声入力から対応する話者ラベルの出力までの時間である。 DIART-pipeline では、埋め込みモデルである pyannote/embedding で最低レイテンシを実現する。 FS-EENDシステムも同様に優れたレイテンシを示している。
論文参考訳（メタデータ） (2024-07-05T06:54:27Z)
Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文参考訳（メタデータ） (2023-01-04T05:36:56Z)
Semantic Communication Enabling Robust Edge Intelligence for Time-Critical IoT Applications [87.05763097471487]
本稿では、時間クリティカルなIoTアプリケーションのためのセマンティック通信を用いて、堅牢なエッジインテリジェンスを設計することを目的とする。本稿では,画像DCT係数が推定精度に与える影響を解析し,オフロードのためのチャネル非依存の有効性符号化を提案する。
論文参考訳（メタデータ） (2022-11-24T20:13:17Z)
An Intelligent Deterministic Scheduling Method for Ultra-Low Latency Communication in Edge Enabled Industrial Internet of Things [19.277349546331557]
時間知覚ネットワーク (TSN) は, 決定論的スケジューリングによる低遅延通信を実現するために最近研究されている。非衝突理論に基づく決定論的スケジューリング (NDS) 法を提案し, 時間に敏感な流れに対する超低遅延通信を実現する。実験の結果,NDS/DQSは決定論的超低レイテンシサービスを十分にサポートし,帯域幅の有効利用を保証できることがわかった。
論文参考訳（メタデータ） (2022-07-17T16:52:51Z)
Adding Connectionist Temporal Summarization into Conformer to Improve Its Decoder Efficiency For Speech Recognition [22.61761934996406]
本稿では,アテンションデコーダに必要なフレーム数を削減できる新しいコネクショニスト時間要約法を提案する。ビーム幅が4で、LibriSpeechの復号化予算は最大20%削減できる。単語誤り率(WER)はビーム幅1で6%、ビーム幅4で3%減少する。
論文参考訳（メタデータ） (2022-04-08T07:24:00Z)
Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。エンドツーエンドのNAR音声認識システムを提案する。提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文参考訳（メタデータ） (2021-07-20T11:42:26Z)
Advanced Long-context End-to-end Speech Recognition Using Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文参考訳（メタデータ） (2021-04-19T16:18:00Z)
Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文参考訳（メタデータ） (2021-04-06T00:55:11Z)
Deep Speaker Embeddings for Far-Field Speaker Recognition on Short Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文参考訳（メタデータ） (2020-02-14T13:34:33Z)
Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文参考訳（メタデータ） (2020-01-08T18:58:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。