論文の概要: Small footprint Text-Independent Speaker Verification for Embedded
Systems
- arxiv url: http://arxiv.org/abs/2011.01709v2
- Date: Wed, 21 Apr 2021 16:18:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 04:15:51.713078
- Title: Small footprint Text-Independent Speaker Verification for Embedded
Systems
- Title(参考訳): 組み込みシステムにおける小型テキスト非依存話者照合
- Authors: Julien Balian, Raffaele Tavarone, Mathieu Poumeyrol, Alice Coucke
- Abstract要約: 本稿では,話者検証のための2段階モデルアーキテクチャのオーダーを共通解より桁違いに小さくする。
Raspberry Pi 3BのようなIoTシステムに典型的な小型デバイスでソリューションを実行する可能性を示し、5秒の発話で200ms未満のレイテンシを持つ。
- 参考スコア(独自算出の注目度): 7.123796359179192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural network approaches to speaker verification have proven
successful, but typical computational requirements of State-Of-The-Art (SOTA)
systems make them unsuited for embedded applications. In this work, we present
a two-stage model architecture orders of magnitude smaller than common
solutions (237.5K learning parameters, 11.5MFLOPS) reaching a competitive
result of 3.31% Equal Error Rate (EER) on the well established VoxCeleb1
verification test set. We demonstrate the possibility of running our solution
on small devices typical of IoT systems such as the Raspberry Pi 3B with a
latency smaller than 200ms on a 5s long utterance. Additionally, we evaluate
our model on the acoustically challenging VOiCES corpus. We report a limited
increase in EER of 2.6 percentage points with respect to the best scoring model
of the 2019 VOiCES from a Distance Challenge, against a reduction of 25.6 times
in the number of learning parameters.
- Abstract(参考訳): 話者検証に対するディープニューラルネットワークのアプローチは成功したが、State-Of-The-Art(SOTA)システムの典型的な計算要件は組み込みアプリケーションには不適である。
本稿では,よく確立されたVoxCeleb1検証テストセット上でのEER(Equal Error Rate)の3.31%の競合結果に達する2段階モデルアーキテクチャのオーダー(237.5Kの学習パラメータ,11.5MFLOPS)を提案する。
Raspberry Pi 3BのようなIoTシステムに典型的な小型デバイスでソリューションを実行する可能性を示し、5秒の発話で200ms未満のレイテンシを持つ。
さらに,VOiCESコーパスの音響的課題に対する評価を行った。
学習パラメータの25.6倍の削減に対して,2019年音声のベストスコアリングモデルに対して,距離チャレンジによるeerの2.2.6ポイントの限定的な増加を報告した。
関連論文リスト
- A Light Weight Model for Active Speaker Detection [7.253335671577093]
入力候補を減らし、2次元と3次元の畳み込みを音声・視覚特徴抽出に分割し、計算量が少ないゲート再帰ユニット(GRU)をクロスモーダルモデリングに応用し、軽量な能動話者検出アーキテクチャを構築した。
AVA-ActiveSpeakerデータセットの実験結果は、我々のフレームワークが競合的なmAP性能(94.1%対94.2%)を達成することを示している。
私たちのフレームワークは、良好な堅牢性を示すColumbiaデータセットでもうまく機能します。
論文 参考訳(メタデータ) (2023-03-08T08:40:56Z) - Ultra-low Power Deep Learning-based Monocular Relative Localization
Onboard Nano-quadrotors [64.68349896377629]
この研究は、2つのピアナノドロンのディープニューラルネットワーク(DNN)を介して、単分子の相対的な局所化に対処する、新しい自律的なエンドツーエンドシステムを示す。
超制約ナノドローンプラットフォームに対処するため,データセットの増大,量子化,システム最適化などを含む垂直統合フレームワークを提案する。
実験の結果,DNNは低分解能モノクローム画像のみを用いて最大2mの距離で10cmのターゲットナノドローンを正確に局在させることができることがわかった。
論文 参考訳(メタデータ) (2023-03-03T14:14:08Z) - Real-time Speech Interruption Analysis: From Cloud to Client Deployment [20.694024217864783]
我々は最近,音声の中断を検知する最初の音声中断解析モデルを開発した。
この機能をよりコスト効率が高く、環境に優しい方法で提供するため、クライアントデバイスでWavLM_SIモデルを出荷するために、モデルの複雑さとサイズを削減しました。
論文 参考訳(メタデータ) (2022-10-24T15:39:51Z) - QTI Submission to DCASE 2021: residual normalization for
device-imbalanced acoustic scene classification with efficient design [11.412720572948087]
このタスクの目的は、モデル複雑性の制約の下でデバイス不均衡なデータセットのためのオーディオシーン分類システムを設計することである。
本報告では,目標を達成するための4つの方法を紹介する。
提案システムは,TAU Urban Acoustic Scenes 2020 Mobileにおける平均テスト精度76.3%,315kパラメータによる開発データセット,圧縮後の75.3%,非ゼロパラメータの61.0KBまでの平均テスト精度を達成している。
論文 参考訳(メタデータ) (2022-06-28T11:42:52Z) - A Lottery Ticket Hypothesis Framework for Low-Complexity Device-Robust
Neural Acoustic Scene Classification [78.04177357888284]
デバイス・ロバスト音響シーン分類(ASC)のためのデータ拡張、知識伝達、プルーニング、量子化を組み合わせた新しいニューラルモデル圧縮戦略を提案する。
本稿では,低複雑マルチデバイスASCのためのアコースティック・ロッテリー(Austratic Lottery)という,効率的なジョイント・フレームワークについて報告する。
論文 参考訳(メタデータ) (2021-07-03T16:25:24Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - Gait Recovery System for Parkinson's Disease using Machine Learning on
Embedded Platforms [0.052498055901649014]
パーキンソン病(PD)の診断における歩行凍結(FoG)は共通の歩行障害である
著者らは加速度センサ信号から機械学習サブシステムを用いてFOGイベントを検出するユビキタス組み込みシステムを提案する。
論文 参考訳(メタデータ) (2020-04-13T08:03:28Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Attention based on-device streaming speech recognition with large speech
corpus [16.702653972113023]
大規模(>10K時間)コーパスで学習したモノトニックチャンクワイド・アテンション(MoChA)モデルに基づいて,新しいオンデバイス自動音声認識(ASR)システムを提案する。
一般ドメインにおける単語認識率の約90%は、主にコネクショニスト時間分類器(CTC)とクロスエントロピー(CE)の併用訓練を用いて達成した。
オンデマンド適応では,MoChAモデルを統計的n-gramモデルに融合し,一般ドメインを含む対象ドメインの平均単語誤り率(WER)を36%向上させることができた。
論文 参考訳(メタデータ) (2020-01-02T04:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。