Fugu-MT 論文翻訳(概要): Rethinking CNN Models for Audio Classification

論文の概要: Rethinking CNN Models for Audio Classification

arxiv url: http://arxiv.org/abs/2007.11154v2
Date: Fri, 13 Nov 2020 19:09:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-07 23:33:57.680785
Title: Rethinking CNN Models for Audio Classification
Title（参考訳）: 音声分類のためのCNNモデルの再検討
Authors: Kamalesh Palanisamy, Dipika Singhania, Angela Yao
Abstract要約: ImageNet-Pretrained標準CNNモデルは、音声分類のための強力なベースラインネットワークとして使用できる。事前学習した重量のどれがスペクトログラムの学習に役立つかを系統的に研究する。事前訓練した重みを用いた標準モデルでは、ランダムなデンス重みを使用するよりもよいことを示す。
参考スコア（独自算出の注目度）: 20.182928938110923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we show that ImageNet-Pretrained standard deep CNN models can be used as strong baseline networks for audio classification. Even though there is a significant difference between audio Spectrogram and standard ImageNet image samples, transfer learning assumptions still hold firmly. To understand what enables the ImageNet pretrained models to learn useful audio representations, we systematically study how much of pretrained weights is useful for learning spectrograms. We show (1) that for a given standard model using pretrained weights is better than using randomly initialized weights (2) qualitative results of what the CNNs learn from the spectrograms by visualizing the gradients. Besides, we show that even though we use the pretrained model weights for initialization, there is variance in performance in various output runs of the same model. This variance in performance is due to the random initialization of linear classification layer and random mini-batch orderings in multiple runs. This brings significant diversity to build stronger ensemble models with an overall improvement in accuracy. An ensemble of ImageNet pretrained DenseNet achieves 92.89% validation accuracy on the ESC-50 dataset and 87.42% validation accuracy on the UrbanSound8K dataset which is the current state-of-the-art on both of these datasets.
Abstract（参考訳）: 本稿では,ImageNet-Pretrained標準深度CNNモデルを,音声分類のための強力なベースラインネットワークとして利用できることを示す。オーディオスペクトログラムと標準のimagenetイメージサンプルには大きな差があるが、転送学習の仮定は依然としてしっかりと保たれている。本研究では,ImageNetの事前学習モデルで有用な音声表現を学習できることを理解するために,事前学習した重みのどれだけがスペクトログラムの学習に役立つかを体系的に研究する。 1) 事前学習した重みを用いた標準モデルでは, ランダム初期化重みを用いた方が優れており, 勾配を可視化することで, cnnがスペクトログラムから学んだことの質的結果が得られる。さらに,初期化には事前学習したモデル重みを用いるが,同一モデルの様々な出力実行では性能にばらつきがあることを示した。この性能のばらつきは、線形分類層のランダム初期化と複数の実行におけるランダムなミニバッチ順序によるものである。これにより、より強力なアンサンブルモデルを構築することができ、全体的な精度が向上する。 ImageNetの事前訓練されたDenseNetのアンサンブルは、ESC-50データセットで92.89%の検証精度、UrbanSound8Kデータセットで87.42%の検証精度を達成した。

関連論文リスト

ForAug: Recombining Foregrounds and Backgrounds to Improve Vision Transformer Training with Bias Mitigation [7.242733423663421]
変換器は大規模画像分類において最先端の性能を達成した。それらはしばしば大量のデータを必要とし、その堅牢性と一般化性を制限するバイアスを示す。本稿では、帰納バイアスを明示的に含む新しいデータ拡張方式であるForAugを紹介する。
論文参考訳（メタデータ） (2025-03-12T13:49:45Z)
Efficient Training with Denoised Neural Weights [65.14892033932895]
この研究は、初期化のために神経重みを合成するウェイトジェネレータを構築するための新しい一歩を踏み出した。本稿では,モデル重みの収集を容易にするために,GANを用いた画像間翻訳タスクを例に挙げる。拡散モデルによって予測される重み付き画像翻訳モデルを初期化することにより、トレーニングは43.3秒しか必要としない。
論文参考訳（メタデータ） (2024-07-16T17:59:42Z)
ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object [78.58860252442045]
我々は、深層モデルの堅牢性をベンチマークするハードイメージのためのデータソースとして、生成モデルを紹介した。このベンチマークを ImageNet-D と呼ぶ以前の作業よりも、背景、テクスチャ、材料が多様化したイメージを生成することができます。我々の研究は、拡散モデルが視覚モデルをテストするのに効果的な情報源となることを示唆している。
論文参考訳（メタデータ） (2024-03-27T17:23:39Z)
Co-training $2^L$ Submodels for Visual Recognition [67.02999567435626]
サブモデルコトレーニングは、コトレーニング、自己蒸留、深さに関連する正規化手法である。サブモデルのコトレーニングは,画像分類やセマンティックセグメンテーションなどの認識タスクのためのバックボーンのトレーニングに有効であることを示す。
論文参考訳（メタデータ） (2022-12-09T14:38:09Z)
Decoupled Mixup for Generalized Visual Recognition [71.13734761715472]
視覚認識のためのCNNモデルを学習するための新しい「デカップリング・ミクスアップ」手法を提案する。本手法は,各画像を識別領域と雑音発生領域に分離し,これらの領域を均一に組み合わせてCNNモデルを訓練する。実験結果から,未知のコンテキストからなるデータに対する本手法の高一般化性能を示す。
論文参考訳（メタデータ） (2022-10-26T15:21:39Z)
Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。 CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文参考訳（メタデータ） (2022-02-07T17:59:04Z)
Automated Cleanup of the ImageNet Dataset by Model Consensus, Explainability and Confident Learning [0.0]
ImageNetは、ILSVRC12Netでトレーニングされた様々な畳み込みニューラルネットワーク(CNN)のバックボーンである。本稿では,モデルのコンセンサス,説明可能性,自信のある学習に基づく自動アプリケーションについて述べる。 ImageNet-CleanはSqueezeNetおよびEfficientNet-B0モデルのモデルパフォーマンスを2-2.4%向上させる。
論文参考訳（メタデータ） (2021-03-30T13:16:35Z)
Shape-Texture Debiased Neural Network Training [50.6178024087048]
畳み込みニューラルネットワークは、トレーニングデータセットによって、テクスチャまたは形状にバイアスされることが多い。形状・テクスチャ・デバイアスド学習のためのアルゴリズムを開発した。実験により,本手法は複数の画像認識ベンチマークにおけるモデル性能の向上に成功していることが示された。
論文参考訳（メタデータ） (2020-10-12T19:16:12Z)
Increasing the Robustness of Semantic Segmentation Models with Painting-by-Numbers [39.95214171175713]
我々は,物体の形状に対するネットワークバイアスを増大させることにより,出力を改善することができる画像分類からの洞察に基づいて構築する。我々の基本的な考え方は、RGBトレーニング画像の一部を偽画像でアルファブレンドすることであり、各クラスラベルには、固定されたランダムに選択された色が与えられる。各種ネットワークバックボーン,MobileNet-V2,ResNets,Xceptionを用いたDeepLabv3+のトレーニングスキーマの有効性を実証し,Cityscapesデータセットで評価した。
論文参考訳（メタデータ） (2020-10-12T07:42:39Z)
FU-net: Multi-class Image Segmentation Using Feedback Weighted U-net [5.193724835939252]
マルチクラス画像分割のための汎用ディープ畳み込みニューラルネットワーク(DCNN)を提案する。 U-netとして知られる、よく確立された教師付きエンドツーエンドDCNNモデルに基づいている。
論文参考訳（メタデータ） (2020-04-28T13:08:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。