論文の概要: Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles
- arxiv url: http://arxiv.org/abs/2310.11379v1
- Date: Tue, 17 Oct 2023 16:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 15:12:19.773002
- Title: Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles
- Title(参考訳): 2段マルチレゾリューションアンサンブルによるロバストなウェイクアップワード検出
- Authors: Fernando L\'opez, Jordi Luque, Carlos Segura, Pablo G\'omez
- Abstract要約: オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
- 参考スコア(独自算出の注目度): 48.208214762257136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice-based interfaces rely on a wake-up word mechanism to initiate
communication with devices. However, achieving a robust, energy-efficient, and
fast detection remains a challenge. This paper addresses these real production
needs by enhancing data with temporal alignments and using detection based on
two phases with multi-resolution. It employs two models: a lightweight
on-device model for real-time processing of the audio stream and a verification
model on the server-side, which is an ensemble of heterogeneous architectures
that refine detection. This scheme allows the optimization of two operating
points. To protect privacy, audio features are sent to the cloud instead of raw
audio. The study investigated different parametric configurations for feature
extraction to select one for on-device detection and another for the
verification model. Furthermore, thirteen different audio classifiers were
compared in terms of performance and inference time. The proposed ensemble
outperforms our stronger classifier in every noise condition.
- Abstract(参考訳): 音声ベースのインタフェースは、デバイスとの通信を開始するための起動ワード機構に依存している。
しかし、堅牢でエネルギー効率が高く、迅速な検出を実現することは依然として課題である。
本稿では、時間的アライメントによるデータ向上と、マルチレゾリューションによる2つの位相に基づく検出により、これらの実運用ニーズに対処する。
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、検出を洗練するための異種アーキテクチャのアンサンブルであるサーバ側の検証モデルである。
この方式は2つの操作点の最適化を可能にする。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
本研究は,オンデバイス検出用と検証モデル用を選択するための特徴抽出のためのパラメトリック構成について検討した。
さらに,13種類の音声分類器を性能と推定時間で比較した。
提案するアンサンブルは,すべての雑音条件において,より強固な分類器を上回る。
関連論文リスト
- Proactive Detection of Voice Cloning with Localized Watermarking [50.13539630769929]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-30T18:56:22Z) - Parameter Efficient Audio Captioning With Faithful Guidance Using
Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。
次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文 参考訳(メタデータ) (2023-09-06T19:42:52Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - End-To-End Audiovisual Feature Fusion for Active Speaker Detection [7.631698269792165]
本研究は,VGG-Mによる画像から抽出した特徴と,音声波形から抽出したMel周波数Cepstrum係数とを融合した新しい2ストリームエンドツーエンドフレームワークを提案する。
我々の最高の性能モデルは88.929%の精度を達成した。
論文 参考訳(メタデータ) (2022-07-27T10:25:59Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。