論文の概要: A Real-Time Voice Activity Detection Based On Lightweight Neural
- arxiv url: http://arxiv.org/abs/2405.16797v1
- Date: Mon, 27 May 2024 03:31:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 19:06:16.210547
- Title: A Real-Time Voice Activity Detection Based On Lightweight Neural
- Title(参考訳): 軽量ニューラルネットワークを用いたリアルタイム音声活動検出
- Authors: Jidong Jia, Pei Zhao, Di Wang,
- Abstract要約: 音声活動検出(Voice Activity Detection, VAD)は、音声ストリーム中の音声を検出するタスクである。
最近のニューラルネットワークベースのVADでは、パフォーマンスの低下がある程度軽減されている。
我々は,カジュアルかつ深さ分離可能な1次元畳み込みとGRUを利用するMagicNetという,軽量でリアルタイムなニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 4.589472292598182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice activity detection (VAD) is the task of detecting speech in an audio stream, which is challenging due to numerous unseen noises and low signal-to-noise ratios in real environments. Recently, neural network-based VADs have alleviated the degradation of performance to some extent. However, the majority of existing studies have employed excessively large models and incorporated future context, while neglecting to evaluate the operational efficiency and latency of the models. In this paper, we propose a lightweight and real-time neural network called MagicNet, which utilizes casual and depth separable 1-D convolutions and GRU. Without relying on future features as input, our proposed model is compared with two state-of-the-art algorithms on synthesized in-domain and out-domain test datasets. The evaluation results demonstrate that MagicNet can achieve improved performance and robustness with fewer parameter costs.
- Abstract(参考訳): 音声活動検出(VAD)は,音声ストリーム中の音声を検出するタスクであり,実環境における可視ノイズの多さと低信号-雑音比により困難である。
近年、ニューラルネットワークベースのVADでは、パフォーマンスの低下がある程度軽減されている。
しかし、既存の研究の大半は、過剰に大規模なモデルを採用し、将来の文脈を取り入れつつ、モデルの運用効率と遅延を評価することを怠っている。
本稿では,カジュアルかつ深さ分離可能な1次元畳み込みとGRUを利用するMagicNetという,軽量かつリアルタイムなニューラルネットワークを提案する。
提案モデルは,将来的な特徴を入力として頼らずに,合成したドメイン内およびドメイン外テストデータセットの2つの最先端アルゴリズムと比較する。
評価結果は、MagicNetがパラメータコストを少なくして、パフォーマンスと堅牢性を向上できることを示した。
関連論文リスト
- sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection
with Spiking Neural Networks [51.516451451719654]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。
本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。
SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-09T02:55:44Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Worst-Case Dynamic Power Distribution Network Noise Prediction Using
Convolutional Neural Network [14.144190519120167]
最悪の動的PDNノイズ分析は、チップの性能と信頼性を確保するためにPDNサインオフにおいて重要なステップである。
本稿では,最悪ケースの動的PDN雑音予測のための,効率的かつスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-27T08:37:10Z) - Neuromorphic Camera Denoising using Graph Neural Network-driven
Transformers [3.805262583092311]
ニューロモルフィック・ビジョン(Neuromorphic vision)は、コンピュータビジョンコミュニティのパラダイムシフトを引き起こしたバイオインスパイアされた技術である。
ニューロモルフィックカメラは、かなりの量の計測ノイズに悩まされている。
このノイズは、ニューロモルフィック事象に基づく知覚とナビゲーションアルゴリズムの性能を劣化させる。
論文 参考訳(メタデータ) (2021-12-17T18:57:36Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Inferring, Predicting, and Denoising Causal Wave Dynamics [3.9407250051441403]
DISTANA(Distributed Artificial Neural Network Architecture)は、グラフ畳み込みニューラルネットワークである。
DISTANAは、再帰パターンが観測されるので、データストリームを飾るのに非常に適していることを示す。
安定かつ正確なクローズドループ予測を数百の時間ステップで生成する。
論文 参考訳(メタデータ) (2020-09-19T08:33:53Z) - Robust Processing-In-Memory Neural Networks via Noise-Aware
Normalization [26.270754571140735]
PIM加速器は、しばしば物理的成分の固有のノイズに悩まされる。
雑音設定に対してロバストなニューラルネットワーク性能を実現するためのノイズ非依存手法を提案する。
論文 参考訳(メタデータ) (2020-07-07T06:51:28Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。