論文の概要: Towards sub-millisecond latency real-time speech enhancement models on hearables
- arxiv url: http://arxiv.org/abs/2409.18239v1
- Date: Thu, 26 Sep 2024 19:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 15:01:18.557866
- Title: Towards sub-millisecond latency real-time speech enhancement models on hearables
- Title(参考訳): 聴取者における低ミリ秒レイテンシリアルタイム音声強調モデルの実現に向けて
- Authors: Artem Dementyev, Chandan K. A. Reddy, Scott Wisdom, Navin Chatlani, John R. Hershey, Richard F. Lyon,
- Abstract要約: 低レイテンシモデルは、補聴器や補聴器などのリアルタイム音声強調アプリケーションに不可欠である。
計算効率のよい最小位相FIRフィルタを用いて音声強調を行い、サンプル・バイ・サンプル処理により平均アルゴリズム遅延0.32msから1.25msを実現した。
我々は,388MIPSの低消費電力DSPと3.35msのエンドツーエンドのレイテンシで動作可能であることをベンチマークした。
- 参考スコア(独自算出の注目度): 21.542503235873227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low latency models are critical for real-time speech enhancement applications, such as hearing aids and hearables. However, the sub-millisecond latency space for resource-constrained hearables remains underexplored. We demonstrate speech enhancement using a computationally efficient minimum-phase FIR filter, enabling sample-by-sample processing to achieve mean algorithmic latency of 0.32 ms to 1.25 ms. With a single microphone, we observe a mean SI-SDRi of 4.1 dB. The approach shows generalization with a DNSMOS increase of 0.2 on unseen audio recordings. We use a lightweight LSTM-based model of 644k parameters to generate FIR taps. We benchmark that our system can run on low-power DSP with 388 MIPS and mean end-to-end latency of 3.35 ms. We provide a comparison with baseline low-latency spectral masking techniques. We hope this work will enable a better understanding of latency and can be used to improve the comfort and usability of hearables.
- Abstract(参考訳): 低レイテンシモデルは、補聴器や補聴器などのリアルタイム音声強調アプリケーションに不可欠である。
しかし、資源制約された可聴器のミリ秒未満の遅延空間は、まだ探索されていない。
計算効率の低い最小位相FIRフィルタを用いて音声強調を行い、サンプル・バイ・サンプル処理により平均アルゴリズム遅延0.32msから1.25msを実現し、単一のマイクロホンで平均SI-SDRiの4.1dBを観測する。
このアプローチは、未確認音声記録におけるDNSMOSの0.2増加による一般化を示す。
我々は、FIRタップを生成するために、644kパラメータの軽量LSTMモデルを使用する。
我々は,388 MIPSの低消費電力DSPと3.35 msの平均終端遅延をベンチマークし,ベースラインの低遅延スペクトルマスキング技術との比較を行った。
この作業によってレイテンシの理解が向上し,可聴性の快適性とユーザビリティの向上が期待できます。
関連論文リスト
- Fast, High-Quality and Parameter-Efficient Articulatory Synthesis using Differentiable DSP [6.295981052578859]
EMA(Electronic Articulography)のような動脈軌跡は声道フィルタの低次元表現を提供する。
本稿では,EMA,F0,ラウドネスから音声を合成できる高速で高品質でパラメータ効率のよいVocoderを提案する。
本モデルでは,6.67%の転写単語誤り率(WER)と3.74の平均世論スコア(MOS)を達成し,最新技術(SOTA)ベースラインと比較して1.63%,0.16の改善を行った。
論文 参考訳(メタデータ) (2024-09-04T05:12:15Z) - Zeroth-Order Fine-Tuning of LLMs with Extreme Sparsity [66.67596152389591]
ゼロ階最適化(ZO)は、微調整された大規模言語モデルのためのメモリ効率の高い戦略である。
本研究では,ZO を用いた LLM パラメータの極小サブセットの微調整の実現可能性について検討した。
この結果から,ZO を用いた LLM の微調整パラメータ 0.1% は,ZO の微調整性能より優れることが示された。
論文 参考訳(メタデータ) (2024-06-05T04:07:35Z) - Building Accurate Low Latency ASR for Streaming Voice Search [0.0]
本研究は,大規模音声検索のためのLSTM,アテンション,CTCに基づくストリーミングASRモデルの開発に重点を置いている。
本研究では,バニラLSTMトレーニングの各種修正について検討し,ストリーミング機能を維持しながらシステムの精度を向上する。
本稿では,共同ASRとEOS検出が可能なエンド・ツー・エンドモデルの簡単なトレーニングと推論戦略を提案する。
論文 参考訳(メタデータ) (2023-05-29T20:24:14Z) - Short-Term Memory Convolutions [0.0]
本稿では,STMC(Short-Term Memory Convolution)と呼ばれる,推論時間レイテンシとメモリ消費の最小化手法を提案する。
STMCベースのモデルのトレーニングは、畳み込みニューラルネットワーク(CNN)のみに基づくため、より速く、より安定している。
音声分離では, 出力品質に影響を与えることなく, 5倍の推論時間短縮と2倍の遅延低減を実現した。
論文 参考訳(メタデータ) (2023-02-08T20:52:24Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Unified End-to-End Speech Recognition and Endpointing for Fast and
Efficient Speech Systems [17.160006765475988]
本稿では,単一エンドツーエンド (E2E) モデルを用いて, ASR と EP タスクを協調訓練する手法を提案する。
我々は、EPにオーディオフレームを直接消費するか、ASRモデルから低レベルの潜在表現を消費するよう訓練する「スウィッチ」接続を導入する。
これにより、推論中にフレームフィルタリングを低コストで行うことができる単一のE2Eモデルが得られる。
論文 参考訳(メタデータ) (2022-11-01T23:43:15Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Transformer in action: a comparative study of transformer-based acoustic
models for large scale speech recognition applications [23.470690511056173]
インダストリアルスケールタスクにおけるトランスフォーマーベース音響モデルとLSTMモデルとの比較を行った。
低レイテンシ音声アシスタントタスクでは、Emformerは24%から26%の相対的単語誤り率削減(WERR)を受ける。
中程度のレイテンシのシナリオでは、LCBLSTMと同じようなモデルサイズとレイテンシを比較して、Emformerはビデオキャプションデータセットで4つの言語にわたる重要なWERRを取得する。
論文 参考訳(メタデータ) (2020-10-27T23:04:21Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - A Streaming On-Device End-to-End Model Surpassing Server-Side
Conventional Model Quality and Latency [88.08721721440429]
本稿では,第1パスリカレントニューラルネットワークトランスデューサ(RNN-T)モデルと第2パスリステン,Attend,Spell(LAS)リスコラを開発する。
RNN-T+LASは従来のモデルに比べてWERとレイテンシのトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-28T05:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。