論文の概要: Rethinking CNN Models for Audio Classification
- arxiv url: http://arxiv.org/abs/2007.11154v2
- Date: Fri, 13 Nov 2020 19:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 23:33:57.680785
- Title: Rethinking CNN Models for Audio Classification
- Title(参考訳): 音声分類のためのCNNモデルの再検討
- Authors: Kamalesh Palanisamy, Dipika Singhania, Angela Yao
- Abstract要約: ImageNet-Pretrained標準CNNモデルは、音声分類のための強力なベースラインネットワークとして使用できる。
事前学習した重量のどれがスペクトログラムの学習に役立つかを系統的に研究する。
事前訓練した重みを用いた標準モデルでは、ランダムなデンス重みを使用するよりもよいことを示す。
- 参考スコア(独自算出の注目度): 20.182928938110923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we show that ImageNet-Pretrained standard deep CNN models can
be used as strong baseline networks for audio classification. Even though there
is a significant difference between audio Spectrogram and standard ImageNet
image samples, transfer learning assumptions still hold firmly. To understand
what enables the ImageNet pretrained models to learn useful audio
representations, we systematically study how much of pretrained weights is
useful for learning spectrograms. We show (1) that for a given standard model
using pretrained weights is better than using randomly initialized weights (2)
qualitative results of what the CNNs learn from the spectrograms by visualizing
the gradients. Besides, we show that even though we use the pretrained model
weights for initialization, there is variance in performance in various output
runs of the same model. This variance in performance is due to the random
initialization of linear classification layer and random mini-batch orderings
in multiple runs. This brings significant diversity to build stronger ensemble
models with an overall improvement in accuracy. An ensemble of ImageNet
pretrained DenseNet achieves 92.89% validation accuracy on the ESC-50 dataset
and 87.42% validation accuracy on the UrbanSound8K dataset which is the current
state-of-the-art on both of these datasets.
- Abstract(参考訳): 本稿では,ImageNet-Pretrained標準深度CNNモデルを,音声分類のための強力なベースラインネットワークとして利用できることを示す。
オーディオスペクトログラムと標準のimagenetイメージサンプルには大きな差があるが、転送学習の仮定は依然としてしっかりと保たれている。
本研究では,ImageNetの事前学習モデルで有用な音声表現を学習できることを理解するために,事前学習した重みのどれだけがスペクトログラムの学習に役立つかを体系的に研究する。
1) 事前学習した重みを用いた標準モデルでは, ランダム初期化重みを用いた方が優れており, 勾配を可視化することで, cnnがスペクトログラムから学んだことの質的結果が得られる。
さらに,初期化には事前学習したモデル重みを用いるが,同一モデルの様々な出力実行では性能にばらつきがあることを示した。
この性能のばらつきは、線形分類層のランダム初期化と複数の実行におけるランダムなミニバッチ順序によるものである。
これにより、より強力なアンサンブルモデルを構築することができ、全体的な精度が向上する。
ImageNetの事前訓練されたDenseNetのアンサンブルは、ESC-50データセットで92.89%の検証精度、UrbanSound8Kデータセットで87.42%の検証精度を達成した。
関連論文リスト
- Co-training $2^L$ Submodels for Visual Recognition [67.02999567435626]
サブモデルコトレーニングは、コトレーニング、自己蒸留、深さに関連する正規化手法である。
サブモデルのコトレーニングは,画像分類やセマンティックセグメンテーションなどの認識タスクのためのバックボーンのトレーニングに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-09T14:38:09Z) - Decoupled Mixup for Generalized Visual Recognition [71.13734761715472]
視覚認識のためのCNNモデルを学習するための新しい「デカップリング・ミクスアップ」手法を提案する。
本手法は,各画像を識別領域と雑音発生領域に分離し,これらの領域を均一に組み合わせてCNNモデルを訓練する。
実験結果から,未知のコンテキストからなるデータに対する本手法の高一般化性能を示す。
論文 参考訳(メタデータ) (2022-10-26T15:21:39Z) - Core Risk Minimization using Salient ImageNet [53.616101711801484]
私たちは、1000のImagenetクラスのコアとスプリアス機能をローカライズする100万人以上のソフトマスクを備えたSalient Imagenetデータセットを紹介します。
このデータセットを用いて、まず、いくつかのImagenet事前訓練されたモデル(総計42件)の素早い特徴に対する依存度を評価する。
次に、コアリスク最小化(CoRM)と呼ばれる新しい学習パラダイムを導入する。
論文 参考訳(メタデータ) (2022-03-28T01:53:34Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Automated Cleanup of the ImageNet Dataset by Model Consensus,
Explainability and Confident Learning [0.0]
ImageNetは、ILSVRC12Netでトレーニングされた様々な畳み込みニューラルネットワーク(CNN)のバックボーンである。
本稿では,モデルのコンセンサス,説明可能性,自信のある学習に基づく自動アプリケーションについて述べる。
ImageNet-CleanはSqueezeNetおよびEfficientNet-B0モデルのモデルパフォーマンスを2-2.4%向上させる。
論文 参考訳(メタデータ) (2021-03-30T13:16:35Z) - Shape-Texture Debiased Neural Network Training [50.6178024087048]
畳み込みニューラルネットワークは、トレーニングデータセットによって、テクスチャまたは形状にバイアスされることが多い。
形状・テクスチャ・デバイアスド学習のためのアルゴリズムを開発した。
実験により,本手法は複数の画像認識ベンチマークにおけるモデル性能の向上に成功していることが示された。
論文 参考訳(メタデータ) (2020-10-12T19:16:12Z) - Increasing the Robustness of Semantic Segmentation Models with
Painting-by-Numbers [39.95214171175713]
我々は,物体の形状に対するネットワークバイアスを増大させることにより,出力を改善することができる画像分類からの洞察に基づいて構築する。
我々の基本的な考え方は、RGBトレーニング画像の一部を偽画像でアルファブレンドすることであり、各クラスラベルには、固定されたランダムに選択された色が与えられる。
各種ネットワークバックボーン,MobileNet-V2,ResNets,Xceptionを用いたDeepLabv3+のトレーニングスキーマの有効性を実証し,Cityscapesデータセットで評価した。
論文 参考訳(メタデータ) (2020-10-12T07:42:39Z) - Background Splitting: Finding Rare Classes in a Sea of Background [55.03789745276442]
我々は,少数の稀なカテゴリの画像分類のための,高精度な深層モデルの訓練という現実的な問題に焦点をあてる。
これらのシナリオでは、ほとんどの画像はデータセットの背景カテゴリに属します(データセットの95%は背景です)。
非バランスなデータセットをトレーニングするための標準的な微調整アプローチと最先端アプローチの両方が、この極端な不均衡の存在下で正確な深層モデルを生成していないことを実証する。
論文 参考訳(メタデータ) (2020-08-28T23:05:15Z) - FU-net: Multi-class Image Segmentation Using Feedback Weighted U-net [5.193724835939252]
マルチクラス画像分割のための汎用ディープ畳み込みニューラルネットワーク(DCNN)を提案する。
U-netとして知られる、よく確立された教師付きエンドツーエンドDCNNモデルに基づいている。
論文 参考訳(メタデータ) (2020-04-28T13:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。