論文の概要: Sound Event Detection with Depthwise Separable and Dilated Convolutions
- arxiv url: http://arxiv.org/abs/2002.00476v1
- Date: Sun, 2 Feb 2020 19:50:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 20:21:00.459477
- Title: Sound Event Detection with Depthwise Separable and Dilated Convolutions
- Title(参考訳): 奥行き分離と拡張畳み込みによる音響イベント検出
- Authors: Konstantinos Drossos and Stylianos I. Mimilakis and Shayan Gharib and
Yanxiong Li and Tuomas Virtanen
- Abstract要約: 最先端音事象検出(SED)法は通常、入力された音声信号から有用な特徴を抽出するために一連の畳み込みニューラルネットワーク(CNN)を用いる。
本稿では,CNNを深く分離可能な畳み込みに置き換えることと,RNNを拡張畳み込みに置き換えることを提案する。
平均フレーム単位のF1スコアと平均エラー率をそれぞれ4.6%、平均エラー率を3.8%向上させる。
- 参考スコア(独自算出の注目度): 23.104644393058123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art sound event detection (SED) methods usually employ a series
of convolutional neural networks (CNNs) to extract useful features from the
input audio signal, and then recurrent neural networks (RNNs) to model longer
temporal context in the extracted features. The number of the channels of the
CNNs and size of the weight matrices of the RNNs have a direct effect on the
total amount of parameters of the SED method, which is to a couple of millions.
Additionally, the usually long sequences that are used as an input to an SED
method along with the employment of an RNN, introduce implications like
increased training time, difficulty at gradient flow, and impeding the
parallelization of the SED method. To tackle all these problems, we propose the
replacement of the CNNs with depthwise separable convolutions and the
replacement of the RNNs with dilated convolutions. We compare the proposed
method to a baseline convolutional neural network on a SED task, and achieve a
reduction of the amount of parameters by 85% and average training time per
epoch by 78%, and an increase the average frame-wise F1 score and reduction of
the average error rate by 4.6% and 3.8%, respectively.
- Abstract(参考訳): state-of-the-art sound event detection (sed) は通常、入力音声信号から有用な特徴を抽出するために一連の畳み込みニューラルネットワーク (cnns) を使用し、抽出された特徴の長い時間的文脈をモデル化するためにrecurrent neural networks (rnn) を使用する。
CNNのチャネル数とRNNの重み行列の大きさは、SED法のパラメータの総量に直接影響する。
さらに、通常長いシーケンスは、RNNの使用とともにSEDメソッドへの入力として使用され、トレーニング時間の増加、勾配流の困難化、SEDメソッドの並列化を妨げている。
これらの問題に対処するために,CNNを深く分離可能な畳み込みで置き換えることと,RNNを拡張畳み込みで置き換えることを提案する。
提案手法を,SEDタスク上のベースライン畳み込みニューラルネットワークと比較し,パラメータの85%,トレーニング時間の平均を78%削減し,フレーム単位のF1スコアと平均誤差率の4.6%と3.8%をそれぞれ増加させた。
関連論文リスト
- Patch-CNN: Training data-efficient deep learning for high-fidelity
diffusion tensor estimation from minimal diffusion protocols [3.0416974614291226]
6方向拡散重み付き画像(DWI)のみからの拡散テンソル(DT)推定のための新しい手法であるPatch-CNNを提案する。
イメージワイドFCNと比較すると、最小限のカーネルはトレーニングデータ要求を大幅に削減する。
改良された繊維配向推定は、改良されたトラクトグラムを生成する。
論文 参考訳(メタデータ) (2023-07-03T20:39:48Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Selfish Sparse RNN Training [13.165729746380816]
本稿では,1回のランでパラメータ数を固定したスパースRNNを,性能を損なうことなく訓練する手法を提案する。
我々はPenn TreeBankとWikitext-2の様々なデータセットを用いて最先端のスパーストレーニング結果を得る。
論文 参考訳(メタデータ) (2021-01-22T10:45:40Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Depthwise Separable Convolutions Versus Recurrent Neural Networks for
Monaural Singing Voice Separation [17.358040670413505]
我々は歌声分離に重点を置き、RNNアーキテクチャを採用し、RNNをDWS畳み込み(DWS-CNN)に置き換える。
本稿では,DWS-CNNのチャネル数と層数による音源分離性能への影響について検討する。
その結果、RNNをDWS-CNNに置き換えることで、RNNアーキテクチャのパラメータの20.57%しか使用せず、それぞれ1.20、0.06、0.37dBの改善が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-06T12:32:34Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。