論文の概要: Improving Sound Event Classification by Increasing Shift Invariance in
Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2107.00623v1
- Date: Thu, 1 Jul 2021 17:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 16:15:14.687550
- Title: Improving Sound Event Classification by Increasing Shift Invariance in
Convolutional Neural Networks
- Title(参考訳): 畳み込みニューラルネットワークにおけるシフト不変性向上による音響イベント分類の改善
- Authors: Eduardo Fonseca, Andres Ferraro, Xavier Serra
- Abstract要約: 近年の研究では、畳み込みネットワークの一般に仮定されるシフト不変性に疑問が呈されている。
我々は、低域フィルタと入ってくる特徴写像の適応サンプリングに基づいて、CNNにおけるシフト不変性を改善する2つの方法を評価する。
これらの修正は、トレーニング可能なパラメータを追加(あるいはごく少数)することなく、考慮すべきすべてのケースにおいて、音事象の分類を一貫して改善することを示します。
- 参考スコア(独自算出の注目度): 14.236193187116047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have put into question the commonly assumed shift invariance
property of convolutional networks, showing that small shifts in the input can
affect the output predictions substantially. In this paper, we ask whether lack
of shift invariance is a problem in sound event classification, and whether
there are benefits in addressing it. Specifically, we evaluate two pooling
methods to improve shift invariance in CNNs, based on low-pass filtering and
adaptive sampling of incoming feature maps. These methods are implemented via
small architectural modifications inserted into the pooling layers of CNNs. We
evaluate the effect of these architectural changes on the FSD50K dataset using
models of different capacity and in presence of strong regularization. We show
that these modifications consistently improve sound event classification in all
cases considered, without adding any (or adding very few) trainable parameters,
which makes them an appealing alternative to conventional pooling layers. The
outcome is a new state-of-the-art mAP of 0.541 on the FSD50K classification
benchmark.
- Abstract(参考訳): 近年の研究では、畳み込みネットワークの一般的なシフト不変性に疑問が持たれ、入力の小さなシフトが出力予測に実質的に影響を及ぼすことが示されている。
本稿では,音事象分類において変化不変性の欠如が問題となるのか,それに対処するメリットがあるのかを問う。
具体的には,cnnのシフト不変性を改善するための2つのプーリング法を評価し,低パスフィルタと入ってくる特徴マップの適応サンプリングに基づいて評価した。
これらのメソッドはcnnのプール層に挿入された小さなアーキテクチャの変更によって実装される。
設計上の変化がFSD50Kデータセットに与える影響を、異なるキャパシティモデルと強い正規化の有無で評価する。
これらの修正は,学習可能なパラメータを追加することなく,すべてのケースで音のイベント分類を一貫して改善し,従来のプール層に代わる魅力的な代替手段となることを示す。
結果は、fsd50k分類ベンチマークで0.541の新しい最先端マップである。
関連論文リスト
- Improving Shift Invariance in Convolutional Neural Networks with Translation Invariant Polyphase Sampling [14.731788603429774]
ダウンサンプリング演算子は畳み込みニューラルネットワーク(CNN)のシフト不変性を破る
翻訳不変多相サンプリング(TIPS)と呼ばれる学習可能なプーリング演算子を提案する。
TIPSは精度、シフト一貫性、シフト忠実度で一貫したパフォーマンス向上をもたらす。
論文 参考訳(メタデータ) (2024-04-11T00:49:38Z) - Deep Neural Network Models Trained With A Fixed Random Classifier
Transfer Better Across Domains [23.10912424714101]
最近発見されたニューラル崩壊(NC)現象は、ディープ・ニューラル・ニューラルネットワークの最後の層重みが、訓練の最終段階において、いわゆるEquiangular Tight Frame (ETF) Simplexに収束することを示している。
NC特性にインスパイアされた本論文では,最終層重みをETFにより固定したDNNモデルの伝達性について検討する。
論文 参考訳(メタデータ) (2024-02-28T15:52:30Z) - Balanced Classification: A Unified Framework for Long-Tailed Object
Detection [74.94216414011326]
従来の検出器は、分類バイアスによる長期データを扱う際の性能劣化に悩まされる。
本稿では,カテゴリ分布の格差に起因する不平等の適応的是正を可能にする,BAlanced CLassification (BACL) と呼ばれる統一フレームワークを提案する。
BACLは、さまざまなバックボーンとアーキテクチャを持つさまざまなデータセット間で、一貫してパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-08-04T09:11:07Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - Fuzzy Pooling [7.6146285961466]
畳み込みニューラルネットワーク(英: Convolutional Neural Networks、CNN)は、一般的には畳み込みとプールという2つの操作に基づく人工知能システムである。
本稿では, (type-1) ファジィ集合に基づく新しいプール操作を提案し, 特徴写像の局所的精度に対処する。
公開データセットを用いた実験により,提案手法はCNNの分類性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-02-12T11:18:32Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - ECINN: Efficient Counterfactuals from Invertible Neural Networks [80.94500245955591]
本稿では, 画像分類における可逆ニューラルネットワークの生成能力を利用して, 対実例を効率的に生成する手法ECINNを提案する。
ECINNはクローズドフォーム表現を持ち、たった2つの評価の時点で反事実を生成する。
私たちの実験では、ECINNがクラス依存イメージ領域を変更して、反現実の知覚的および予測的クラスを変更する方法を示す。
論文 参考訳(メタデータ) (2021-03-25T09:23:24Z) - Truly shift-invariant convolutional neural networks [0.0]
近年の研究では、CNNの出力は入力の小さなシフトで大きく変化することが示されている。
本稿では,適応型多相サンプリング(APS)を提案する。これは,畳み込みニューラルネットワークが,シフト下での分類性能において100%整合性を実現するための,単純なサブサンプリング手法である。
論文 参考訳(メタデータ) (2020-11-28T20:57:35Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。