論文の概要: Leveraging cache to enable SLU on tiny devices
- arxiv url: http://arxiv.org/abs/2311.18188v3
- Date: Wed, 13 Dec 2023 01:33:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 12:40:13.209717
- Title: Leveraging cache to enable SLU on tiny devices
- Title(参考訳): キャッシュを活用して小さなデバイスでSLUを実現する
- Authors: Afsara Benazir, Zhiming Xu, Felix Xiaozhu Lin (University of Virginia)
- Abstract要約: 小型デバイスのための音声キャッシュXYZを提案する。
音声入力は、2つのレベルの表現で一致します。まずは生音ユニットのクラスタ化されたシーケンス、次に音素のシーケンスです。
市販のSTM32マイクロコントローラにXYZを実装した。
- 参考スコア(独自算出の注目度): 2.0856136584548652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses spoken language understanding (SLU) on
microcontroller-like embedded devices, integrating on-device execution with
cloud offloading in a novel fashion. We exploit temporal locality in a device's
speech inputs and accordingly reuse recent SLU inferences. Our idea is simple:
let the device match new inputs against cached results, and only offload
unmatched inputs to the cloud for full inference. Realization of this idea,
however, is non-trivial: the device needs to compare acoustic features in a
robust, low-cost way. To this end, we present XYZ, a speech cache for tiny
devices. It matches speech inputs at two levels of representations: first by
clustered sequences of raw sound units, then as sequences of phonemes. Working
in tandem, the two representations offer complementary cost/accuracy tradeoffs.
To further boost accuracy, our cache is learning: with the mismatched and then
offloaded inputs, it continuously finetunes the device's feature extractors
(with the assistance of the cloud). We implement XYZ on an off-the-shelf STM32
microcontroller. The resultant implementation has a small memory footprint of
2MB. Evaluated on challenging speech benchmarks, our system resolves 45%--90%
of inputs on device, reducing the average latency by up to 80% compared to
offloading to popular cloud speech services. Our benefit is pronounced even in
adversarial settings -- noisy environments, cold cache, or one device shared by
a number of users.
- Abstract(参考訳): 本稿では,マイクロコントローラのような組み込みデバイス上での音声言語理解(SLU)について述べる。
我々は,デバイスの音声入力における時間的局所性を活用し,近年のslu推論を再利用する。
私たちのアイデアは単純で、デバイスがキャッシュされた結果に対して新しい入力をマッチングさせ、完全な推論のために未マッチの入力だけをクラウドにオフロードする。
しかし、このアイデアの実現は簡単ではない。デバイスは頑丈で低コストな方法で音響特性を比較する必要がある。
この目的のために,小型デバイス向け音声キャッシュXYZを提案する。
音声入力は、2つのレベルの表現で一致します。まずは生音ユニットのクラスタ化されたシーケンス、次に音素のシーケンスです。
2つの表現は相補的なコスト/精度のトレードオフを提供する。
さらに精度を高めるために、私たちのキャッシュは学習している。ミスマッチした入力とオフロードされた入力によって、デバイスの特徴抽出器を(クラウドの助けを借りて)継続的に微調整する。
市販STM32マイクロコントローラにXYZを実装した。
その結果、メモリフットプリントが2MBになった。
課題のある音声ベンチマークに基づいて、当社のシステムは、デバイス上の入力の45%--90%を解決し、一般的なクラウド音声サービスへのオフロードと比較して平均遅延を最大80%削減します。当社のメリットは、ノイズの多い環境、コールドキャッシュ、あるいは多数のユーザによって共有される1つのデバイスにおいてさえ発音されます。
関連論文リスト
- VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations [13.020158123538138]
音声分離誘導ダイアリゼーション(SSGD)は、まず話者を分離し、各分離ストリームに音声活動検出(VAD)を適用することでダイアリゼーションを行う。
3つの最先端音声分離(SSep)アルゴリズムを検討し,その性能をオンラインおよびオフラインのシナリオで検討する。
我々は,CALLHOMEの8.8%のDORを実現し,現在の最先端のニューラルダイアリゼーションモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-03-21T16:33:56Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Implicit Acoustic Echo Cancellation for Keyword Spotting and
Device-Directed Speech Detection [2.7393821783237184]
多くの音声対応のヒューマンマシンインタラクションシナリオでは、ユーザ音声はデバイスがオーディオを再生するときに重複する可能性がある。
そこで我々は,ニューラルネットワークをトレーニングし,参照マイクロホンチャネルからの付加情報を利用する暗黙の音響エコーキャンセリングフレームワークを提案する。
デバイス再生条件下でDDDタスクの偽リジェクト率を56%削減することを示す。
論文 参考訳(メタデータ) (2021-11-20T17:21:16Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Streaming on-device detection of device directed speech from voice and
touch-based invocation [12.42440115067583]
デバイス上での音声検出のための音響的偽トリガー除去(FTM)手法を提案する。
デバイス上でのモデル展開を容易にするため,時間的畳み込みネットワーク(TCN)の概念を用いた新たなストリーミング決定層を導入する。
我々の知る限りでは、これはストリーミング方式で複数の呼び出しタイプからデバイス指向の音声を検出する最初のアプローチである。
論文 参考訳(メタデータ) (2021-10-09T22:33:42Z) - LightSpeech: Lightweight and Fast Text to Speech with Neural
Architecture Search [127.56834100382878]
我々は、FastSpeechに基づくより軽量で効率的なTSモデルを自動的に設計するLightSpeechを提案する。
実験の結果,提案手法により検出されたモデルは,CPU上での15倍のモデル圧縮比と6.5倍の推論高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-02-08T07:45:06Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - TinySpeech: Attention Condensers for Deep Speech Recognition Neural
Networks on Edge Devices [71.68436132514542]
エッジ上でのオンデバイス音声認識のための低フットプリント,高効率深層ニューラルネットワーク構築のためのアテンションコンデンサの概念を紹介する。
その有効性を説明するために,デバイス上での音声認識に適した低精度深層ニューラルネットワークTinySpeechを導入する。
論文 参考訳(メタデータ) (2020-08-10T16:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。