論文の概要: Cross-scale Attention Model for Acoustic Event Classification
- arxiv url: http://arxiv.org/abs/1912.12011v2
- Date: Mon, 15 Jun 2020 21:10:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-10 00:05:26.413375
- Title: Cross-scale Attention Model for Acoustic Event Classification
- Title(参考訳): 音響イベント分類のためのクロススケール注意モデル
- Authors: Xugang Lu, Peng Shen, Sheng Li, Yu Tsao, Hisashi Kawai
- Abstract要約: 我々は,異なるスケールの特徴を明示的に統合して最終表現を形成する,クロススケールアテンション(CSA)モデルを提案する。
提案したCSAモデルは,現在最先端のディープラーニングアルゴリズムの性能を効果的に向上できることを示す。
- 参考スコア(独自算出の注目度): 45.15898265162008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major advantage of a deep convolutional neural network (CNN) is that the
focused receptive field size is increased by stacking multiple convolutional
layers. Accordingly, the model can explore the long-range dependency of
features from the top layers. However, a potential limitation of the network is
that the discriminative features from the bottom layers (which can model the
short-range dependency) are smoothed out in the final representation. This
limitation is especially evident in the acoustic event classification (AEC)
task, where both short- and long-duration events are involved in an audio clip
and needed to be classified. In this paper, we propose a cross-scale attention
(CSA) model, which explicitly integrates features from different scales to form
the final representation. Moreover, we propose the adoption of the attention
mechanism to specify the weights of local and global features based on the
spatial and temporal characteristics of acoustic events. Using mathematic
formulations, we further reveal that the proposed CSA model can be regarded as
a weighted residual CNN (ResCNN) model when the ResCNN is used as a backbone
model. We tested the proposed model on two AEC datasets: one is an urban AEC
task, and the other is an AEC task in smart car environments. Experimental
results show that the proposed CSA model can effectively improve the
performance of current state-of-the-art deep learning algorithms.
- Abstract(参考訳): 深層畳み込みニューラルネットワーク(cnn)の大きな利点は、複数の畳み込み層を積み重ねることで集中した受容野サイズが増加することである。
したがって、モデルはトップレイヤから機能の長距離依存性を探索することができる。
しかし、ネットワークの潜在的な制限は、下層層(短距離依存性をモデル化できる)からの識別的特徴が最終的な表現で平滑化されることである。
この制限は、音響イベント分類(aec)タスクにおいて特に顕著であり、短いイベントと長いイベントの両方がオーディオクリップに関与し、分類する必要がある。
本稿では,異なるスケールの特徴を明示的に統合して最終表現を形成する,クロススケールアテンション(CSA)モデルを提案する。
さらに,音響事象の空間的特徴と時間的特性に基づいて,局所的特徴と大域的特徴の重みを規定するアテンション機構の導入を提案する。
数学的定式化を用いて,ResCNNをバックボーンモデルとして使用する場合,提案したCSAモデルを重み付き残留CNN(ResCNN)モデルとみなすことができることを明らかにした。
提案したモデルを2つのAECデータセット上でテストした。1つは都市型AECタスクで、もう1つはスマートカー環境におけるAECタスクである。
実験の結果,提案手法は最先端のディープラーニングアルゴリズムの性能を効果的に向上できることがわかった。
関連論文リスト
- Adaptable Embeddings Network (AEN) [49.1574468325115]
我々はカーネル密度推定(KDE)を用いた新しいデュアルエンコーダアーキテクチャであるAdaptable Embeddings Networks (AEN)を紹介する。
AENは、再トレーニングせずに分類基準のランタイム適応を可能にし、非自己回帰的である。
アーキテクチャのプリプロセスとキャッシュ条件の埋め込み能力は、エッジコンピューティングアプリケーションやリアルタイム監視システムに最適である。
論文 参考訳(メタデータ) (2024-11-21T02:15:52Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Harnessing Neural Unit Dynamics for Effective and Scalable Class-Incremental Learning [38.09011520275557]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに、非定常データストリームから新しいクラスを学ぶためのモデルをトレーニングすることを目的としている。
本稿では、ニューラルネットワークの動作をCILに適応させるニューラルネットワークユニットダイナミクスを調整し、新しい種類のコネクショナリストモデルを提案する。
論文 参考訳(メタデータ) (2024-06-04T15:47:03Z) - CSA-Net: Channel-wise Spatially Autocorrelated Attention Networks [19.468704622654357]
深部CNNに対するチャネルワイド空間自己相関(CSA)アテンション機構を提案する。
地理的解析にインスパイアされた提案CSAは,特徴写像のチャネル間の空間的関係を利用して,効果的なチャネル記述子を生成する。
我々は、ImageNetおよびMS COCOベンチマークデータセットの広範な実験と分析により、提案したCSAネットワークの有効性を検証する。
論文 参考訳(メタデータ) (2024-05-09T13:21:03Z) - Systematic Architectural Design of Scale Transformed Attention Condenser
DNNs via Multi-Scale Class Representational Response Similarity Analysis [93.0013343535411]
マルチスケールクラス表現応答類似性分析(ClassRepSim)と呼ばれる新しいタイプの分析法を提案する。
ResNetスタイルのアーキテクチャにSTACモジュールを追加すると、最大1.6%の精度が向上することを示す。
ClassRepSim分析の結果は、STACモジュールの効果的なパラメータ化を選択するために利用することができ、競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-16T18:29:26Z) - ASU-CNN: An Efficient Deep Architecture for Image Classification and
Feature Visualizations [0.0]
活性化関数はディープニューラルネットワークの能力を決定する上で決定的な役割を果たす。
本稿では,ASU-CNNと呼ばれる畳み込みニューラルネットワークモデルを提案する。
ネットワークは、CIFAR-10の分類のためのトレーニングデータとテストデータの両方において有望な結果を得た。
論文 参考訳(メタデータ) (2023-05-28T16:52:25Z) - Research on Dual Channel News Headline Classification Based on ERNIE
Pre-training Model [13.222137788045416]
提案モデルは従来のニューラルネットワークモデルと比較して,ニュース見出し分類の精度,精度,F1スコアを改善する。
大規模データ量でのニュース見出しテキストのマルチクラス化アプリケーションでは、うまく機能する。
論文 参考訳(メタデータ) (2022-02-14T10:44:12Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。