論文の概要: Urban Sound Classification : striving towards a fair comparison
- arxiv url: http://arxiv.org/abs/2010.11805v1
- Date: Thu, 22 Oct 2020 15:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 08:37:25.997576
- Title: Urban Sound Classification : striving towards a fair comparison
- Title(参考訳): 都市音の分類 : 公平な比較に向けて
- Authors: Augustin Arnault, Baptiste Hanssens and Nicolas Riche
- Abstract要約: 我々は,都市の騒音汚染のモニタリングを支援するために,DCASE 2020タスク5の入賞ソリューションを提案する。
これは、検証セットの粗い/細かい分類のための0.82 / 0.62のマクロAUPRCを達成する。
ESC-50とUS8kデータセットでそれぞれ89.7%と85.41%に達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Urban sound classification has been achieving remarkable progress and is
still an active research area in audio pattern recognition. In particular, it
allows to monitor the noise pollution, which becomes a growing concern for
large cities. The contribution of this paper is two-fold. First, we present our
DCASE 2020 task 5 winning solution which aims at helping the monitoring of
urban noise pollution. It achieves a macro-AUPRC of 0.82 / 0.62 for the coarse
/ fine classification on validation set. Moreover, it reaches accuracies of
89.7% and 85.41% respectively on ESC-50 and US8k datasets. Second, it is not
easy to find a fair comparison and to reproduce the performance of existing
models. Sometimes authors copy-pasting the results of the original papers which
is not helping reproducibility. As a result, we provide a fair comparison by
using the same input representation, metrics and optimizer to assess
performances. We preserve data augmentation used by the original papers. We
hope this framework could help evaluate new architectures in this field. For
better reproducibility, the code is available on our GitHub repository.
- Abstract(参考訳): 都市音の分類は目覚ましい進歩を遂げており、今でも音声パターン認識において活発な研究領域である。
特に、大都市への関心が高まっている騒音汚染の監視を可能にする。
この論文の貢献は2つある。
まず,都市騒音汚染のモニタリング支援を目的とした,DCASE 2020タスク5の入賞ソリューションを提案する。
バリデーション集合の粗く細かい分類に対して、マクロauprcは 0.82 / 0.62 である。
さらに、ESC-50とUS8kデータセットでそれぞれ89.7%と85.41%に達する。
第二に、公正な比較を見つけ、既存のモデルの性能を再現することは容易ではない。
再現性に寄与しないオリジナルの論文の結果を複写する著者もいる。
その結果、同じ入力表現、メトリクス、オプティマイザを用いて性能評価を行い、公正な比較を行った。
原論文で用いたデータ拡張を保存します。
このフレームワークがこの分野で新しいアーキテクチャを評価するのに役立つことを期待しています。
再現性を改善するため、コードはgithubリポジトリから入手できます。
関連論文リスト
- Less is More: Fewer Interpretable Region via Submodular Subset Selection [54.07758302264416]
本稿では,上述の画像帰属問題を部分モジュラ部分選択問題として再モデル化する。
我々は、より正確な小さな解釈領域を発見するために、新しい部分モジュラー関数を構築する。
正しく予測されたサンプルに対しては,HSIC-Attributionに対する平均4.9%と2.5%の利得で,Deletion and Insertionスコアを改善した。
論文 参考訳(メタデータ) (2024-02-14T13:30:02Z) - SparseVSR: Lightweight and Noise Robust Visual Speech Recognition [100.43280310123784]
我々は,高密度モデルよりも高い性能を実現する軽量モデルを生成する。
その結果,疎結合ネットワークは高密度ネットワークよりもノイズに耐性があることが確認された。
論文 参考訳(メタデータ) (2023-07-10T13:34:13Z) - Optimizing the Noise in Self-Supervised Learning: from Importance
Sampling to Noise-Contrastive Estimation [80.07065346699005]
GAN(Generative Adversarial Networks)のように、最適な雑音分布はデータ分布に等しくなると広く想定されている。
我々は、この自己教師型タスクをエネルギーベースモデルの推定問題として基礎づけるノイズ・コントラスト推定に目を向ける。
本研究は, 最適雑音のサンプリングは困難であり, 効率性の向上は, データに匹敵する雑音分布を選択することに比べ, 緩やかに行うことができると結論付けた。
論文 参考訳(メタデータ) (2023-01-23T19:57:58Z) - Image Classification with Small Datasets: Overview and Benchmark [0.0]
私たちは過去の研究を体系的に組織化し、結合し、現在分断され散らばっているコミュニティを統合する。
本稿では,アプローチの客観的比較を可能にする共通ベンチマークを提案する。
このベンチマークを用いて、標準のクロスエントロピーベースラインと、有名な会場で2017年から2021年にかけて発行された10の既存手法を再評価する。
論文 参考訳(メタデータ) (2022-12-23T17:11:16Z) - A Closer Look at Weakly-Supervised Audio-Visual Source Localization [26.828874753756523]
映像中の視覚的音源の位置を予測することを目的とした,視覚的音源の定位化が課題である。
負のサンプルを含むために、人気のあるベンチマークであるFlickr SoundNetとVGG-Sound Sourcesを拡張します。
また,これら2つの問題に対処する視覚的音源定位のための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-30T14:17:46Z) - A Study on Robustness to Perturbations for Representations of
Environmental Sound [16.361059909912758]
モノフォニック(UrbanSound8K)およびポリフォニック(SONYC UST)データセット上で,YAMNetとOpenL$3$の2つの埋め込みを評価した。
本研究では,音波信号に摂動を注入することによりチャネル効果を模倣し,新しい埋め込みのシフトを3つの距離で測定する。
論文 参考訳(メタデータ) (2022-03-20T01:04:38Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z) - SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-03-02T18:42:45Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - ESResNet: Environmental Sound Classification Based on Visual Domain
Models [4.266320191208303]
単音とステレオ音の入力に本質的に適合するモデルを提案する。
本稿では,ドメイン間の事前トレーニング,アーキテクチャ変更の影響について検討し,そのモデルが標準データセットに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-15T19:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。