論文の概要: Receptive-Field Regularized CNNs for Music Classification and Tagging
- arxiv url: http://arxiv.org/abs/2007.13503v1
- Date: Mon, 27 Jul 2020 12:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 11:55:34.401021
- Title: Receptive-Field Regularized CNNs for Music Classification and Tagging
- Title(参考訳): 音楽分類とタグ付けのためのレセプティブフィールド正規化CNN
- Authors: Khaled Koutini, Hamid Eghbal-Zadeh, Verena Haunschmid, Paul Primus,
Shreyan Chowdhury, Gerhard Widmer
- Abstract要約: 我々は、よく設計された正規化戦略に基づいて、ResNetのようなディープアーキテクチャを音楽関連のタスクに競争力を持たせるための原則的な方法を提案する。
特に、最近導入されたReceptive-Field RegularizationとShake-Shakeを分析し、音楽関連タスクにおける深いCNNの一般化を著しく改善したことを示す。
- 参考スコア(独自算出の注目度): 8.188197619481466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks (CNNs) have been successfully used in various
Music Information Retrieval (MIR) tasks, both as end-to-end models and as
feature extractors for more complex systems. However, the MIR field is still
dominated by the classical VGG-based CNN architecture variants, often in
combination with more complex modules such as attention, and/or techniques such
as pre-training on large datasets. Deeper models such as ResNet -- which
surpassed VGG by a large margin in other domains -- are rarely used in MIR. One
of the main reasons for this, as we will show, is the lack of generalization of
deeper CNNs in the music domain. In this paper, we present a principled way to
make deep architectures like ResNet competitive for music-related tasks, based
on well-designed regularization strategies. In particular, we analyze the
recently introduced Receptive-Field Regularization and Shake-Shake, and show
that they significantly improve the generalization of deep CNNs on
music-related tasks, and that the resulting deep CNNs can outperform current
more complex models such as CNNs augmented with pre-training and attention. We
demonstrate this on two different MIR tasks and two corresponding datasets,
thus offering our deep regularized CNNs as a new baseline for these datasets,
which can also be used as a feature-extracting module in future, more complex
approaches.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、様々な音楽情報検索(MIR)タスクで、エンド・ツー・エンドモデルやより複雑なシステムのための特徴抽出器として、うまく使われている。
しかし、MIRフィールドは現在でも古典的なVGGベースのCNNアーキテクチャの変種に支配されており、注意のようなより複雑なモジュールや、大規模なデータセットでの事前トレーニングのような技術と組み合わせられていることが多い。
他の領域でVGGを超えるResNetのようなより深いモデルは、MIRではほとんど使われない。
その主な理由の1つは、音楽分野におけるより深いCNNの一般化の欠如である。
本稿では,resnetのような深いアーキテクチャを音楽関連のタスクに競争力を持たせるための原則的な手法を提案する。
特に、最近導入されたReceptive-Field RegularizationとShake-Shakeを分析し、音楽関連タスクにおけるディープCNNの一般化を著しく改善し、その結果、ディープCNNは、事前学習と注意を付加したCNNのような、現在のより複雑なモデルよりも優れていることを示す。
2つの異なるMIRタスクと2つの対応するデータセットでこれを実証し、これらのデータセットの新たなベースラインとして、より複雑なアプローチで機能抽出モジュールとしても使用できる、深く正規化されたCNNを提供します。
関連論文リスト
- Multiway Multislice PHATE: Visualizing Hidden Dynamics of RNNs through Training [6.326396282553267]
リカレントニューラルネットワーク(Recurrent Neural Network, RNN)は、シーケンシャルなデータ分析に広く使われているツールであるが、計算のブラックボックスとしてよく見られる。
本稿では,RNNの隠れ状態の進化を可視化する新しい手法であるMultiway Multislice PHATE(MM-PHATE)を提案する。
論文 参考訳(メタデータ) (2024-06-04T05:05:27Z) - CNN2GNN: How to Bridge CNN with GNN [59.42117676779735]
蒸留によりCNNとGNNを統一する新しいCNN2GNNフレームワークを提案する。
Mini-ImageNetにおける蒸留ブースターの2層GNNの性能は、ResNet152のような数十層を含むCNNよりもはるかに高い。
論文 参考訳(メタデータ) (2024-04-23T08:19:08Z) - Transferability of Convolutional Neural Networks in Stationary Learning
Tasks [96.00428692404354]
本稿では,大規模な空間問題に対する畳み込みニューラルネットワーク(CNN)の効率的なトレーニングのための新しいフレームワークを提案する。
このような信号の小さなウィンドウで訓練されたCNNは、再学習することなく、はるかに大きなウィンドウでほぼ性能を発揮することを示す。
以上の結果から,CNNは10人未満の訓練を受けた後,数百人のエージェントによる問題に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-07-21T13:51:45Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - Towards a General Purpose CNN for Long Range Dependencies in
$\mathrm{N}$D [49.57261544331683]
構造変化のない任意の解像度,次元,長さのタスクに対して,連続的な畳み込みカーネルを備えた単一CNNアーキテクチャを提案する。
1$mathrmD$)とビジュアルデータ(2$mathrmD$)の幅広いタスクに同じCCNNを適用することで、我々のアプローチの汎用性を示す。
私たちのCCNNは競争力があり、検討されたすべてのタスクで現在の最先端を上回ります。
論文 参考訳(メタデータ) (2022-06-07T15:48:02Z) - Receptive Field Regularization Techniques for Audio Classification and
Tagging with Deep Convolutional Neural Networks [7.9495796547433395]
CNNの受容場(RF)のチューニングは,その一般化に不可欠であることを示す。
我々は,CNNのRFを制御し,結果のアーキテクチャを体系的にテストする,いくつかの系統的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-26T08:36:29Z) - Scene Understanding for Autonomous Driving [0.0]
Detectron2で提示されたRetinaNet, Faster R-CNN, Mask R-CNNの異なる構成の挙動を検討する。
関心のあるデータセット上でこれらのモデルを微調整した後、パフォーマンスの大幅な改善を観察します。
文脈外のデータセットを用いて異常な状況下で推論を行い、興味深い結果を示す。
論文 参考訳(メタデータ) (2021-05-11T09:50:05Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Disentangling Trainability and Generalization in Deep Neural Networks [45.15453323967438]
我々は,ニューラルネットワークのトレーニング性と一般化のために,NTK(Neural Tangent Kernel)のスペクトルを分析した。
グローバル平均プールのないCNNはFCNとほぼ同じ挙動を示すが、プールを持つCNNは著しく異なり、しばしば一般化性能が向上している。
論文 参考訳(メタデータ) (2019-12-30T18:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。