論文の概要: Acoustic Scene Classification with Squeeze-Excitation Residual Networks
- arxiv url: http://arxiv.org/abs/2003.09284v3
- Date: Fri, 26 Jun 2020 09:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 23:10:08.935234
- Title: Acoustic Scene Classification with Squeeze-Excitation Residual Networks
- Title(参考訳): Squeeze-Excitation Residual Networks を用いた音響シーン分類
- Authors: Javier Naranjo-Alcazar, Sergi Perez-Castanos, Pedro Zuccarello and
Maximo Cobos
- Abstract要約: 残差学習に基づくCNNベースのASCフレームワークの精度を向上させるために,2つの新しい圧縮励起ブロックを提案する。
このような演算子を実装したブロックの振舞いは、ブロックへの入力に応じてニューラルネットワーク全体を変更することができる。
- 参考スコア(独自算出の注目度): 4.591851728010269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acoustic scene classification (ASC) is a problem related to the field of
machine listening whose objective is to classify/tag an audio clip in a
predefined label describing a scene location (e. g. park, airport, etc.). Many
state-of-the-art solutions to ASC incorporate data augmentation techniques and
model ensembles. However, considerable improvements can also be achieved only
by modifying the architecture of convolutional neural networks (CNNs). In this
work we propose two novel squeeze-excitation blocks to improve the accuracy of
a CNN-based ASC framework based on residual learning. The main idea of
squeeze-excitation blocks is to learn spatial and channel-wise feature maps
independently instead of jointly as standard CNNs do. This is usually achieved
by some global grouping operators, linear operators and a final calibration
between the input of the block and its obtained relationships. The behavior of
the block that implements such operators and, therefore, the entire neural
network, can be modified depending on the input to the block, the established
residual configurations and the selected non-linear activations. The analysis
has been carried out using the TAU Urban Acoustic Scenes 2019 dataset
(https://zenodo.org/record/2589280) presented in the 2019 edition of the DCASE
challenge. All configurations discussed in this document exceed the performance
of the baseline proposed by the DCASE organization by 13\% percentage points.
In turn, the novel configurations proposed in this paper outperform the
residual configurations proposed in previous works.
- Abstract(参考訳): 音響シーン分類(ASC)は、シーン位置(例えば、公園、空港など)を表す予め定義されたラベルに音声クリップを分類・タグ付けすることを目的とする機械聴取の分野に関する問題である。
ASCの最先端ソリューションの多くは、データ拡張技術とモデルアンサンブルを取り入れている。
しかし、畳み込みニューラルネットワーク(CNN)のアーキテクチャを変更するだけで、大幅な改善が達成できる。
本研究では,残差学習に基づくCNNベースのASCフレームワークの精度を向上させるために,2つの新しい圧縮励起ブロックを提案する。
圧縮励磁ブロックの主な考え方は、標準的なCNNと共同で行うのではなく、空間的およびチャネル的特徴写像を独立に学習することである。
これは、いくつかの大域群演算子、線型演算子、ブロックの入力と得られた関係の間の最終的なキャリブレーションによって達成される。
このような演算子を実装し、それゆえニューラルネットワーク全体のブロックの挙動は、ブロックへの入力、確立された残留構成、選択された非線形アクティベーションに応じて変更することができる。
この分析は、DCASEチャレンジの2019年版で発表されたTAU Urban Acoustic Scenes 2019データセット(https://zenodo.org/record/2589280)を使用して実施された。
この文書で議論されたすべての構成は、DCASEの組織によって提案されたベースラインのパフォーマンスを13.5%上回る。
次に,本論文で提案する新規構成は,先行研究で提案されている残存構成を上回っている。
関連論文リスト
- Condition-Invariant Semantic Segmentation [77.10045325743644]
我々は現在最先端のドメイン適応アーキテクチャ上で条件不変セマンティック(CISS)を実装している。
本手法は,通常の都市景観$to$ACDCベンチマークにおいて,2番目に高い性能を実現する。
CISSはBDD100K-nightやACDC-nightのようなトレーニング中に見えない領域によく一般化している。
論文 参考訳(メタデータ) (2023-05-27T03:05:07Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Deep Neural Decision Forest for Acoustic Scene Classification [45.886356124352226]
音響シーン分類(ASC)は、録音環境の特性に基づいて音声クリップを分類することを目的としている。
深層神経決定林(DNDF)を用いたASCの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-07T14:39:42Z) - Towards Disentangling Information Paths with Coded ResNeXt [11.884259630414515]
ネットワーク全体の機能の透明性を高めるために,我々は新しいアプローチを採っている。
分類のためのニューラルネットワークアーキテクチャを提案し、各クラスに関連する情報が特定の経路を流れる。
論文 参考訳(メタデータ) (2022-02-10T21:45:49Z) - Exploring Novel Pooling Strategies for Edge Preserved Feature Maps in
Convolutional Neural Networks [0.0]
アンチエイリアス化された畳み込みニューラルネットワーク(CNN)は、CNNにおけるプールの実施方法を見直す上で、ある程度の復活をもたらした。
Laplacian-Gaussian Concatenation with Attention (LGCA) pooling と Wavelet based almost-detailed Concatenation with attention (WADCA) pooling である。
提案手法は, 分類, セグメンテーション, オートエンコーダにおいて, 従来のプール法よりも優れていることが示唆された。
論文 参考訳(メタデータ) (2021-10-17T15:11:51Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - SRF-Net: Selective Receptive Field Network for Anchor-Free Temporal
Action Detection [32.159784061961886]
時間的行動検出(TAD: Temporal Action Detection)は、ビデオ中の人間の行動の時間的局所化と認識を目的とした課題である。
現在の主流のワンステージTADは、事前に定義されたアンカーに依存するアクション提案をローカライズし、分類する。
SRF-Net(Selective Receptive Field Network)と呼ばれる新しいTADモデルを開発した。
論文 参考訳(メタデータ) (2021-06-29T11:29:16Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z) - Cross-scale Attention Model for Acoustic Event Classification [45.15898265162008]
我々は,異なるスケールの特徴を明示的に統合して最終表現を形成する,クロススケールアテンション(CSA)モデルを提案する。
提案したCSAモデルは,現在最先端のディープラーニングアルゴリズムの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2019-12-27T07:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。