論文の概要: On Front-end Gain Invariant Modeling for Wake Word Spotting
- arxiv url: http://arxiv.org/abs/2010.06676v1
- Date: Tue, 13 Oct 2020 20:23:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 00:57:47.542649
- Title: On Front-end Gain Invariant Modeling for Wake Word Spotting
- Title(参考訳): ウェイクワードスポッティングのフロントエンドゲイン不変モデリングについて
- Authors: Yixin Gao, Noah D. Stein, Chieh-Chi Kao, Yunliang Cai, Ming Sun, Tao
Zhang, Shiv Vitaladevuni
- Abstract要約: WWモデルからAFEゲインを分離するために,$Delta$LFBEと呼ばれる新しい手法を提案する。
実家設定から収集したデータを用いてWWモデルを評価する。
- 参考スコア(独自算出の注目度): 15.638500709798292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wake word (WW) spotting is challenging in far-field due to the complexities
and variations in acoustic conditions and the environmental interference in
signal transmission. A suite of carefully designed and optimized audio
front-end (AFE) algorithms help mitigate these challenges and provide better
quality audio signals to the downstream modules such as WW spotter. Since the
WW model is trained with the AFE-processed audio data, its performance is
sensitive to AFE variations, such as gain changes. In addition, when deploying
to new devices, the WW performance is not guaranteed because the AFE is unknown
to the WW model. To address these issues, we propose a novel approach to use a
new feature called $\Delta$LFBE to decouple the AFE gain variations from the WW
model. We modified the neural network architectures to accommodate the delta
computation, with the feature extraction module unchanged. We evaluate our WW
models using data collected from real household settings and showed the models
with the $\Delta$LFBE is robust to AFE gain changes. Specifically, when AFE
gain changes up to $\pm$12dB, the baseline CNN model lost up to relative 19.0%
in false alarm rate or 34.3% in false reject rate, while the model with
$\Delta$LFBE demonstrates no performance loss.
- Abstract(参考訳): ウェークワードスポッティング(WW)は、音響条件の複雑さと変動、および信号伝達における環境干渉により遠方界において困難である。
慎重に設計され最適化されたオーディオフロントエンド(AFE)アルゴリズムがこれらの課題を緩和し、WWスポッターのような下流モジュールにより良い品質のオーディオ信号を提供する。
WWモデルはAFE処理されたオーディオデータで訓練されているため、その性能はゲイン変更などのAFE変動に敏感である。
さらに、新しいデバイスにデプロイする場合、AFEがWWモデルに未知であるため、WW性能は保証されない。
これらの問題に対処するため、WWモデルからAFEゲインを分離するために$\Delta$LFBEと呼ばれる新しい手法を提案する。
特徴抽出モジュールを変更せずに、デルタ計算に適合するようにニューラルネットワークアーキテクチャを変更した。
実家設定から収集したデータを用いてWWモデルを評価し,$\Delta$LFBEのモデルがAFFゲインの変化に対して堅牢であることを示した。
具体的には、AFEのゲインが$\pm$12dBに変化した場合、ベースラインのCNNモデルは偽のアラームレートで19.0%、偽の拒絶レートで34.3%まで低下する一方、$\Delta$LFBEのモデルはパフォーマンス損失を示さない。
関連論文リスト
- DAT: Improving Adversarial Robustness via Generative Amplitude Mix-up in Frequency Domain [23.678658814438855]
敵の攻撃からディープニューラルネットワーク(DNN)を保護するために、敵の訓練(AT)が開発された。
近年の研究では、敵対的攻撃がサンプルの周波数スペクトルの位相内のパターンに不均等に影響を及ぼすことが示されている。
モデルの堅牢性向上と位相パターンの維持のトレードオフを改善するために, 最適化された逆振幅発生器 (AAG) を提案する。
論文 参考訳(メタデータ) (2024-10-16T07:18:36Z) - Biased Over-the-Air Federated Learning under Wireless Heterogeneity [7.3716675761469945]
OTAデバイスプリスケーラの設計について,OTA-FL収束に着目して検討した。
最小ノイズ分散と最小ノイズ分散ゼロバイアス解の2つの解を同定する。
論文 参考訳(メタデータ) (2024-03-28T21:52:15Z) - $t^3$-Variational Autoencoder: Learning Heavy-tailed Data with Student's
t and Power Divergence [7.0479532872043755]
$t3$VAEは、学生のt-distributionsを前者、エンコーダ、デコーダに組み込んだ改良されたVAEフレームワークである。
t3$VAE は CelebA や不均衡な CIFAR-100 データセットにおいて,他のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-12-02T13:14:28Z) - Recurrence without Recurrence: Stable Video Landmark Detection with Deep
Equilibrium Models [96.76758318732308]
本稿では,最近提案されたDeep Equilibrium Model (DEQ) が,この計算形式に自然に適応可能であることを示す。
我々のLandmark DEQ(LDEQ)は、WFLW顔ランドマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-02T19:08:02Z) - Diffusion Denoising Process for Perceptron Bias in Out-of-distribution
Detection [67.49587673594276]
我々は、識別器モデルが入力の特定の特徴に対してより敏感であることを示唆する新しいパーセプトロンバイアスの仮定を導入し、過度な問題を引き起こした。
DMの拡散分解過程 (DDP) が非対称の新たな形態として機能し, 入力を高め, 過信問題を緩和するのに適していることを示す。
CIFAR10, CIFAR100, ImageNetによる実験により, 提案手法がSOTA手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-21T08:45:08Z) - From Environmental Sound Representation to Robustness of 2D CNN Models
Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文 参考訳(メタデータ) (2022-04-14T15:14:08Z) - Towards Data-efficient Modeling for Wake Word Spotting [13.159304353728032]
ウェークワードスポッティング(WW)は、信号伝達の干渉と音響環境の複雑さのため、遠方界では困難である。
従来のWWモデルは大量のドメイン内WW固有のデータを必要とする。
我々は、ドメインミスマッチ、ノイズ条件、限定アノテーションなど、WWモデリングにおける課題に対処する、データ効率のよいソリューションを提案する。
論文 参考訳(メタデータ) (2020-10-13T19:50:26Z) - Deep learning for gravitational-wave data analysis: A resampling
white-box approach [62.997667081978825]
我々は、LIGO検出器からの単一干渉計データを用いて、畳み込みニューラルネットワーク(CNN)を用いて、コンパクトなバイナリコレッセンスにおける重力波(GW)信号を検出する。
CNNはノイズを検出するのに非常に正確だが、GW信号のリコールに十分な感度がないため、CNNはGWトリガの生成よりもノイズ低減に適している。
論文 参考訳(メタデータ) (2020-09-09T03:28:57Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z) - Harnessing Wireless Channels for Scalable and Privacy-Preserving
Federated Learning [56.94644428312295]
無線接続は、フェデレートラーニング(FL)の実現に有効である
Channel randomnessperturbs 各ワーカはモデル更新をインバージョンし、複数のワーカはバンド幅に大きな干渉を発生させる。
A-FADMMでは、すべてのワーカーがモデル更新をアナログ送信を介して単一のチャンネルを使用してパラメータサーバにアップロードする。
これは通信帯域幅を節約するだけでなく、各ワーカーの正確なモデル更新軌跡を任意の盗聴者から隠蔽する。
論文 参考訳(メタデータ) (2020-07-03T16:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。