論文の概要: Capturing scattered discriminative information using a deep architecture
in acoustic scene classification
- arxiv url: http://arxiv.org/abs/2007.04631v1
- Date: Thu, 9 Jul 2020 08:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 05:27:02.721179
- Title: Capturing scattered discriminative information using a deep architecture
in acoustic scene classification
- Title(参考訳): 音響シーン分類における深層構造を用いた分散識別情報の取得
- Authors: Hye-jin Shim, Jee-weon Jung, Ju-ho Kim, Ha-jin Yu
- Abstract要約: 本研究では,識別情報を捕捉し,同時に過度に適合する問題を緩和する様々な手法について検討する。
我々は、ディープニューラルネットワークにおける従来の非線形アクティベーションを置き換えるために、Max Feature Map法を採用する。
2つのデータ拡張方法と2つの深いアーキテクチャモジュールは、システムの過度な適合を減らし、差別的なパワーを維持するためにさらに検討されている。
- 参考スコア(独自算出の注目度): 49.86640645460706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frequently misclassified pairs of classes that share many common acoustic
properties exist in acoustic scene classification (ASC). To distinguish such
pairs of classes, trivial details scattered throughout the data could be vital
clues. However, these details are less noticeable and are easily removed using
conventional non-linear activations (e.g. ReLU). Furthermore, making design
choices to emphasize trivial details can easily lead to overfitting if the
system is not sufficiently generalized. In this study, based on the analysis of
the ASC task's characteristics, we investigate various methods to capture
discriminative information and simultaneously mitigate the overfitting problem.
We adopt a max feature map method to replace conventional non-linear
activations in a deep neural network, and therefore, we apply an element-wise
comparison between different filters of a convolution layer's output. Two data
augment methods and two deep architecture modules are further explored to
reduce overfitting and sustain the system's discriminative power. Various
experiments are conducted using the detection and classification of acoustic
scenes and events 2020 task1-a dataset to validate the proposed methods. Our
results show that the proposed system consistently outperforms the baseline,
where the single best performing system has an accuracy of 70.4% compared to
65.1% of the baseline.
- Abstract(参考訳): 音響シーン分類(ASC)には、多くの一般的な音響特性を共有するクラスが頻繁に存在する。
このようなクラスを区別するためには、データ全体に散らばる自明な詳細が重要な手がかりになり得る。
しかし、これらの詳細は目立たず、従来の非線形アクティベーション(ReLUなど)で容易に取り除かれる。
さらに、設計上の選択を自明な細部を強調することは、システムが十分に一般化されていない場合、容易に過度に適合する。
そこで本研究では,ascタスクの特徴の分析に基づいて,識別情報を取り込む様々な手法を考察し,オーバーフィッティング問題を同時に緩和する。
深層ニューラルネットワークにおける従来の非線形活性化を置き換えるために,最大特徴写像法を採用し,畳み込み層の出力の異なるフィルタ間の要素ワイズ比較を適用した。
2つのデータ拡張方法と2つの深いアーキテクチャモジュールは、システムの過度な適合を減らし、差別的なパワーを維持するためにさらに検討されている。
音響シーンの検出と分類を行い,2020 Task1-aデータセットを用いて提案手法の検証を行った。
その結果,提案方式はベースラインの65.1%に対して,最高性能のシステムは70.4%の精度でベースラインを一貫して上回ることがわかった。
関連論文リスト
- Audio Classification of Low Feature Spectrograms Utilizing Convolutional Neural Networks [0.0]
本稿では,データ分布の低い音声スペクトログラムを解析するための機械学習手法をいくつか提案する。
特に,二分法,一級法,シムズ法を用いて特徴を抽出する新しい畳み込みアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-28T21:48:57Z) - Few-Shot Specific Emitter Identification via Deep Metric Ensemble
Learning [26.581059299453663]
本稿では,自動監視ブロードキャスト(ADS-B)信号を用いた航空機識別のための新しいFS-SEIを提案する。
特に,提案手法は特徴埋め込みと分類から成り立っている。
シミュレーションの結果,カテゴリごとのサンプル数が5以上であれば,提案手法の平均精度は98%以上であることがわかった。
論文 参考訳(メタデータ) (2022-07-14T01:09:22Z) - Investigation of Different Calibration Methods for Deep Speaker
Embedding based Verification Systems [66.61691401921296]
本稿では, ディープスピーカ埋込抽出器のスコアキャリブレーション法について検討する。
この研究のさらなる焦点は、スコア正規化がシステムの校正性能に与える影響を推定することである。
論文 参考訳(メタデータ) (2022-03-28T21:22:22Z) - Deep Neural Decision Forest for Acoustic Scene Classification [45.886356124352226]
音響シーン分類(ASC)は、録音環境の特性に基づいて音声クリップを分類することを目的としている。
深層神経決定林(DNDF)を用いたASCの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-07T14:39:42Z) - Learnable Multi-level Frequency Decomposition and Hierarchical Attention
Mechanism for Generalized Face Presentation Attack Detection [7.324459578044212]
顔提示攻撃検知(PAD)は多くの注目を集めており、顔認識システムを保護する上で重要な役割を果たしている。
両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
ステップワイドアブレーション研究において提案したPAD法の設計を実証した。
論文 参考訳(メタデータ) (2021-09-16T13:06:43Z) - Anomalous Sound Detection Using a Binary Classification Model and Class
Centroids [47.856367556856554]
本稿では, 正規データだけでなく, 他領域の外部データも擬似アノマラス音響データとして用いた二分分類モデルを提案する。
また,2値分類モデルをさらに改善するために,異常音データの追加の有効性についても検討した。
論文 参考訳(メタデータ) (2021-06-11T03:35:06Z) - Self-Attentive Classification-Based Anomaly Detection in Unstructured
Logs [59.04636530383049]
ログ表現を学習するための分類法であるLogsyを提案する。
従来の方法と比較して,F1スコアの平均0.25の改善を示す。
論文 参考訳(メタデータ) (2020-08-21T07:26:55Z) - AP-Loss for Accurate One-Stage Object Detection [49.13608882885456]
一段階の物体検出器は、分類損失と局所化損失を同時に最適化することによって訓練される。
前者は、多数のアンカーのため、非常に前景と後方のアンカーの不均衡に悩まされる。
本稿では,一段検知器の分類タスクをランキングタスクに置き換える新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-08-17T13:22:01Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。