論文の概要: Receptive Field Regularization Techniques for Audio Classification and
Tagging with Deep Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2105.12395v1
- Date: Wed, 26 May 2021 08:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 13:09:55.325259
- Title: Receptive Field Regularization Techniques for Audio Classification and
Tagging with Deep Convolutional Neural Networks
- Title(参考訳): 深層畳み込みニューラルネットワークを用いた音声分類とタグ付けのための受容場正規化手法
- Authors: Khaled Koutini, Hamid Eghbal-zadeh, Gerhard Widmer
- Abstract要約: CNNの受容場(RF)のチューニングは,その一般化に不可欠であることを示す。
我々は,CNNのRFを制御し,結果のアーキテクチャを体系的にテストする,いくつかの系統的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 7.9495796547433395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the performance of variants of well-known
Convolutional Neural Network (CNN) architectures on different audio tasks. We
show that tuning the Receptive Field (RF) of CNNs is crucial to their
generalization. An insufficient RF limits the CNN's ability to fit the training
data. In contrast, CNNs with an excessive RF tend to over-fit the training data
and fail to generalize to unseen testing data. As state-of-the-art CNN
architectures-in computer vision and other domains-tend to go deeper in terms
of number of layers, their RF size increases and therefore they degrade in
performance in several audio classification and tagging tasks. We study
well-known CNN architectures and how their building blocks affect their
receptive field. We propose several systematic approaches to control the RF of
CNNs and systematically test the resulting architectures on different audio
classification and tagging tasks and datasets. The experiments show that
regularizing the RF of CNNs using our proposed approaches can drastically
improve the generalization of models, out-performing complex architectures and
pre-trained models on larger datasets. The proposed CNNs achieve
state-of-the-art results in multiple tasks, from acoustic scene classification
to emotion and theme detection in music to instrument recognition, as
demonstrated by top ranks in several pertinent challenges (DCASE, MediaEval).
- Abstract(参考訳): 本稿では,様々な音声タスクにおいて,よく知られた畳み込みニューラルネットワーク(CNN)アーキテクチャの性能について検討する。
CNNの受容場(RF)のチューニングは,その一般化に不可欠であることを示す。
不十分なrfは、cnnのトレーニングデータに適合する能力を制限する。
対照的に、過剰なrfを持つcnnはトレーニングデータに過度に適合し、見えないテストデータに一般化できない傾向がある。
最先端のCNNアーキテクチャでは、コンピュータビジョンやその他のドメインがレイヤーの数でより深くなり、RFサイズが大きくなるため、複数のオーディオ分類やタグ付けタスクのパフォーマンスが低下する。
我々は、よく知られたCNNアーキテクチャとそのビルディングブロックが受容領域に与える影響について研究する。
本研究では,cnnのrf制御を体系的に行う手法を提案し,様々な音声分類やタギングタスク,データセット上での結果アーキテクチャを体系的にテストする。
実験により,提案手法を用いてCNNのRFを正則化することにより,大規模データセット上でのモデルの一般化,より優れた複雑なアーキテクチャ,事前学習モデルを大幅に改善できることが示された。
提案したCNNは,複数の課題(DCASE,MediaEval)において,音響シーンの分類から音楽の感情検出,主題認識,楽器認識に至るまで,複数のタスクにおいて最先端の成果を達成している。
関連論文リスト
- Transferability of Convolutional Neural Networks in Stationary Learning
Tasks [96.00428692404354]
本稿では,大規模な空間問題に対する畳み込みニューラルネットワーク(CNN)の効率的なトレーニングのための新しいフレームワークを提案する。
このような信号の小さなウィンドウで訓練されたCNNは、再学習することなく、はるかに大きなウィンドウでほぼ性能を発揮することを示す。
以上の結果から,CNNは10人未満の訓練を受けた後,数百人のエージェントによる問題に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-07-21T13:51:45Z) - SAR Despeckling Using Overcomplete Convolutional Networks [53.99620005035804]
スペックルはSAR画像を劣化させるため、リモートセンシングにおいて重要な問題である。
近年の研究では、畳み込みニューラルネットワーク(CNN)が古典的解法よりも優れていることが示されている。
本研究は、受容場を制限することで低レベルの特徴を学習することに集中するために、過剰なCNNアーキテクチャを用いる。
本稿では,合成および実SAR画像の非特定化手法と比較して,提案手法により非特定化性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-31T15:55:37Z) - BreakingBED -- Breaking Binary and Efficient Deep Neural Networks by
Adversarial Attacks [65.2021953284622]
CNNのホワイトボックス攻撃やブラックボックス攻撃に対する堅牢性について検討する。
結果は、蒸留されたCNN、エージェントベースの最新のprunedモデル、およびバイナライズニューラルネットワークのために示されています。
論文 参考訳(メタデータ) (2021-03-14T20:43:19Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - On the Performance of Convolutional Neural Networks under High and Low
Frequency Information [13.778851745408133]
画像の高周波・低周波情報に対するCNNモデルの性能について検討する。
トレーニング中のフィルタリングに基づくデータ拡張を提案する。
堅牢性と低周波の一般化の観点から,良好な性能向上が観察されている。
論文 参考訳(メタデータ) (2020-10-30T17:54:45Z) - Receptive-Field Regularized CNNs for Music Classification and Tagging [8.188197619481466]
我々は、よく設計された正規化戦略に基づいて、ResNetのようなディープアーキテクチャを音楽関連のタスクに競争力を持たせるための原則的な方法を提案する。
特に、最近導入されたReceptive-Field RegularizationとShake-Shakeを分析し、音楽関連タスクにおける深いCNNの一般化を著しく改善したことを示す。
論文 参考訳(メタデータ) (2020-07-27T12:48:12Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z) - Convolution Neural Network Architecture Learning for Remote Sensing
Scene Classification [22.29957803992306]
本稿では,リモートセンシングシーン分類のためのアーキテクチャ学習手法を提案する。
本稿では,勾配降下法を用いてアーキテクチャ空間の効率的な探索を可能にする学習戦略を提案する。
アーキテクチャジェネレータは、最終的にパラメータのセットを実験で使用されるCNNにマッピングします。
論文 参考訳(メタデータ) (2020-01-27T07:42:46Z) - Inferring Convolutional Neural Networks' accuracies from their
architectural characterizations [0.0]
CNNのアーキテクチャと性能の関係について検討する。
本稿では,2つのコンピュータビジョンに基づく物理問題において,その特性がネットワークの性能を予測できることを示す。
我々は機械学習モデルを用いて、トレーニング前にネットワークが一定のしきい値精度よりも優れた性能を発揮できるかどうかを予測する。
論文 参考訳(メタデータ) (2020-01-07T16:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。