論文の概要: A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning
- arxiv url: http://arxiv.org/abs/2202.08509v1
- Date: Thu, 17 Feb 2022 08:26:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 23:33:24.717321
- Title: A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning
- Title(参考訳): ニューラルネットワークプルーニングにおける反復的微調整に基づく小型音声・視覚後発単語スポッティングシステムの設計に関する研究
- Authors: Hengshun Zhou, Jun Du, Chao-Han Huck Yang, Shifu Xiong, Chin-Hui Lee
- Abstract要約: 視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
- 参考スコア(独自算出の注目度): 57.28467469709369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-only-based wake word spotting (WWS) is challenging under noisy
conditions due to environmental interference in signal transmission. In this
paper, we investigate on designing a compact audio-visual WWS system by
utilizing visual information to alleviate the degradation. Specifically, in
order to use visual information, we first encode the detected lips to
fixed-size vectors with MobileNet and concatenate them with acoustic features
followed by the fusion network for WWS. However, the audio-visual model based
on neural networks requires a large footprint and a high computational
complexity. To meet the application requirements, we introduce a neural network
pruning strategy via the lottery ticket hypothesis in an iterative fine-tuning
manner (LTH-IF), to the single-modal and multi-modal models, respectively.
Tested on our in-house corpus for audio-visual WWS in a home TV scene, the
proposed audio-visual system achieves significant performance improvements over
the single-modality (audio-only or video-only) system under different noisy
conditions. Moreover, LTH-IF pruning can largely reduce the network parameters
and computations with no degradation of WWS performance, leading to a potential
product solution for the TV wake-up scenario.
- Abstract(参考訳): 音声のみに基づくウェイクワードスポッティング(WWS)は,信号伝送における環境干渉によりノイズの多い環境下では困難である。
本稿では,視覚情報を利用した小型オーディオ・ビジュアルWWSシステムの設計について検討する。
具体的には,視覚情報を利用するために,まず検出された唇を固定サイズのベクターにmobilenetと符号化し,音響的特徴と結合し,wwsのフュージョンネットワークを合成する。
しかし、ニューラルネットワークに基づくオーディオ視覚モデルは、大きなフットプリントと高い計算複雑性を必要とする。
アプリケーション要件を満たすために,ロッタリーチケット仮説(lth-if)によるニューラルネットワークのプルーニング戦略を,単モードモデルとマルチモーダルモデルに対して,反復的微調整方式(lth-if)で導入する。
ホームテレビシーンにおける視聴覚wwのための社内コーパスでテストした結果,提案する視聴覚システムは,単一モード(オーディオのみまたはビデオのみ)システムに対して,異なる雑音環境下で大きな性能向上を達成している。
さらに、LTH-IFプルーニングは、WWS性能を低下させることなく、ネットワークパラメータと計算を大幅に削減し、テレビの起動シナリオに潜在的な製品ソリューションをもたらす。
関連論文リスト
- Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Audio-Visual Speech Separation in Noisy Environments with a Lightweight
Iterative Model [35.171785986428425]
雑音環境下での音声・視覚音声分離を行うために,AVLIT(Audio-Visual Lightweight ITerative Model)を提案する。
我々のアーキテクチャは、オーディオブランチとビデオブランチで構成されており、各モードの重みを共有する反復的なA-FRCNNブロックがある。
実験は、様々な音声のみのベースラインと音声視覚のベースラインに対して、両方の設定において、我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-05-31T20:09:50Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Speech-enhanced and Noise-aware Networks for Robust Speech Recognition [25.279902171523233]
音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。
提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
論文 参考訳(メタデータ) (2022-03-25T15:04:51Z) - Dynamic Slimmable Denoising Network [64.77565006158895]
DDSNet(Dynamic Slimmable Denoising Network)は、計算量が少なくて優れたDenoising品質を実現するための一般的な手法である。
OurNetには動的ゲートによる動的推論の能力が備わっている。
我々の実験は、最先端の個別に訓練された静的 denoising ネットワークよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-10-17T22:45:33Z) - PRVNet: A Novel Partially-Regularized Variational Autoencoders for
Massive MIMO CSI Feedback [15.972209500908642]
ユーザ装置(UE)は、多重出力多重出力周波数分割二重化(MIMO-FDD)システムにおいて、ダウンリンクチャネル状態情報(CSI)を基地局に送信し、リンク状況を報告する。
本稿では,変分オートエンコーダ(VAE)にインスパイアされたニューラルネットワークアーキテクチャであるPRVNetを紹介し,基地局に送信する前にCSI行列を圧縮する。
論文 参考訳(メタデータ) (2020-11-09T04:07:45Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。