論文の概要: Speech Understanding on Tiny Devices with A Learning Cache
- arxiv url: http://arxiv.org/abs/2311.18188v4
- Date: Wed, 8 May 2024 17:08:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 19:00:52.761310
- Title: Speech Understanding on Tiny Devices with A Learning Cache
- Title(参考訳): 学習キャッシュを用いたTinyデバイス上での音声理解
- Authors: Afsara Benazir, Zhiming Xu, Felix Xiaozhu Lin,
- Abstract要約: SpeechCache(SC)は、小さなデバイス向けの音声キャッシュである。
我々は市販のSTM32マイクロコントローラにSCを実装した。
当社のシステムは,デバイス上での入力の45%-90%を解決し,一般的なクラウド音声認識サービスへのオフロードと比較して,平均遅延を最大80%削減する。
- 参考スコア(独自算出の注目度): 2.7186799067647334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses spoken language understanding (SLU) on microcontroller-like embedded devices, integrating on-device execution with cloud offloading in a novel fashion. We leverage temporal locality in the speech inputs to a device and reuse recent SLU inferences accordingly. Our idea is simple: let the device match incoming inputs against cached results, and only offload inputs not matched to any cached ones to the cloud for full inference. Realization of this idea, however, is non-trivial: the device needs to compare acoustic features in a robust yet low-cost way. To this end, we present SpeechCache (or SC), a speech cache for tiny devices. It matches speech inputs at two levels of representations: first by sequences of clustered raw sound units, then as sequences of phonemes. Working in tandem, the two representations offer complementary tradeoffs between cost and efficiency. To boost accuracy even further, our cache learns to personalize: with the mismatched and then offloaded inputs, it continuously finetunes the device's feature extractors with the assistance of the cloud. We implement SC on an off-the-shelf STM32 microcontroller. The complete implementation has a small memory footprint of 2MB. Evaluated on challenging speech benchmarks, our system resolves 45%-90% of inputs on device, reducing the average latency by up to 80% compared to offloading to popular cloud speech recognition services. The benefit brought by our proposed SC is notable even in adversarial settings - noisy environments, cold cache, or one device shared by a number of users.
- Abstract(参考訳): 本稿では、マイクロコントローラのような組み込みデバイス上での音声言語理解(SLU)に対処し、デバイス上での実行とクラウドオフロードを新たな方法で統合する。
音声入力の時間的局所性をデバイスに利用し、それに応じて最近のSLU推論を再利用する。
私たちのアイデアは単純です – デバイスが入力した入力とキャッシュされた結果とを一致させ,キャッシュされた入力とクラウドへのオフロードのみを完全な推論で一致させる,というものです。
しかし、このアイデアの実現は簡単ではない。このデバイスは、ロバストで低コストな方法で音響特性を比較する必要がある。
この目的のために,小型デバイス向けの音声キャッシュであるSpeechCache(SC)を提案する。
音声入力は、2つのレベルの表現で一致します。まずは、クラスタ化された生音ユニットのシーケンスによって、次に音素のシーケンスとして。
2つの表現は、コストと効率の相補的なトレードオフを提供する。
さらに精度を高めるために、私たちのキャッシュはパーソナライズすることを学びます。ミスマッチした入力とオフロードされた入力によって、デバイスの特徴抽出装置をクラウドの助けを借りて継続的に微調整します。
我々は市販のSTM32マイクロコントローラにSCを実装した。
完全な実装はメモリフットプリントが2MBである。
難解な音声ベンチマークに基づいて,本システムはデバイス上での入力の45%-90%を解決し,一般的なクラウド音声認識サービスへのオフロードと比較して,平均遅延を最大80%削減する。
提案したSCがもたらすメリットは,ノイズの多い環境やコールドキャッシュ,あるいは多数のユーザが共有するひとつのデバイスなど,敵対的な設定でも注目に値するものです。
関連論文リスト
- VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations [13.020158123538138]
音声分離誘導ダイアリゼーション(SSGD)は、まず話者を分離し、各分離ストリームに音声活動検出(VAD)を適用することでダイアリゼーションを行う。
3つの最先端音声分離(SSep)アルゴリズムを検討し,その性能をオンラインおよびオフラインのシナリオで検討する。
我々は,CALLHOMEの8.8%のDORを実現し,現在の最先端のニューラルダイアリゼーションモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-03-21T16:33:56Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Implicit Acoustic Echo Cancellation for Keyword Spotting and
Device-Directed Speech Detection [2.7393821783237184]
多くの音声対応のヒューマンマシンインタラクションシナリオでは、ユーザ音声はデバイスがオーディオを再生するときに重複する可能性がある。
そこで我々は,ニューラルネットワークをトレーニングし,参照マイクロホンチャネルからの付加情報を利用する暗黙の音響エコーキャンセリングフレームワークを提案する。
デバイス再生条件下でDDDタスクの偽リジェクト率を56%削減することを示す。
論文 参考訳(メタデータ) (2021-11-20T17:21:16Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Streaming on-device detection of device directed speech from voice and
touch-based invocation [12.42440115067583]
デバイス上での音声検出のための音響的偽トリガー除去(FTM)手法を提案する。
デバイス上でのモデル展開を容易にするため,時間的畳み込みネットワーク(TCN)の概念を用いた新たなストリーミング決定層を導入する。
我々の知る限りでは、これはストリーミング方式で複数の呼び出しタイプからデバイス指向の音声を検出する最初のアプローチである。
論文 参考訳(メタデータ) (2021-10-09T22:33:42Z) - LightSpeech: Lightweight and Fast Text to Speech with Neural
Architecture Search [127.56834100382878]
我々は、FastSpeechに基づくより軽量で効率的なTSモデルを自動的に設計するLightSpeechを提案する。
実験の結果,提案手法により検出されたモデルは,CPU上での15倍のモデル圧縮比と6.5倍の推論高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-02-08T07:45:06Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - TinySpeech: Attention Condensers for Deep Speech Recognition Neural
Networks on Edge Devices [71.68436132514542]
エッジ上でのオンデバイス音声認識のための低フットプリント,高効率深層ニューラルネットワーク構築のためのアテンションコンデンサの概念を紹介する。
その有効性を説明するために,デバイス上での音声認識に適した低精度深層ニューラルネットワークTinySpeechを導入する。
論文 参考訳(メタデータ) (2020-08-10T16:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。