論文の概要: ESResNet: Environmental Sound Classification Based on Visual Domain
Models
- arxiv url: http://arxiv.org/abs/2004.07301v1
- Date: Wed, 15 Apr 2020 19:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 03:22:25.047440
- Title: ESResNet: Environmental Sound Classification Based on Visual Domain
Models
- Title(参考訳): ESResNet:ビジュアルドメインモデルに基づく環境音の分類
- Authors: Andrey Guzhov, Federico Raue, J\"orn Hees and Andreas Dengel
- Abstract要約: 単音とステレオ音の入力に本質的に適合するモデルを提案する。
本稿では,ドメイン間の事前トレーニング,アーキテクチャ変更の影響について検討し,そのモデルが標準データセットに与える影響について検討する。
- 参考スコア(独自算出の注目度): 4.266320191208303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Environmental Sound Classification (ESC) is an active research area in the
audio domain and has seen a lot of progress in the past years. However, many of
the existing approaches achieve high accuracy by relying on domain-specific
features and architectures, making it harder to benefit from advances in other
fields (e.g., the image domain). Additionally, some of the past successes have
been attributed to a discrepancy of how results are evaluated (i.e., on
unofficial splits of the UrbanSound8K (US8K) dataset), distorting the overall
progression of the field.
The contribution of this paper is twofold. First, we present a model that is
inherently compatible with mono and stereo sound inputs. Our model is based on
simple log-power Short-Time Fourier Transform (STFT) spectrograms and combines
them with several well-known approaches from the image domain (i.e., ResNet,
Siamese-like networks and attention). We investigate the influence of
cross-domain pre-training, architectural changes, and evaluate our model on
standard datasets. We find that our model out-performs all previously known
approaches in a fair comparison by achieving accuracies of 97.0 % (ESC-10),
91.5 % (ESC-50) and 84.2 % / 85.4 % (US8K mono / stereo).
Second, we provide a comprehensive overview of the actual state of the field,
by differentiating several previously reported results on the US8K dataset
between official or unofficial splits. For better reproducibility, our code
(including any re-implementations) is made available.
- Abstract(参考訳): 環境音分類(ESC)は、オーディオ分野において活発な研究領域であり、ここ数年で多くの進歩を遂げてきた。
しかし、既存のアプローチの多くはドメイン固有の特徴やアーキテクチャに依存して高い精度を達成するため、他の分野(例えば画像領域)の進歩の恩恵を受けにくい。
さらに、過去の成功のいくつかは、結果がどのように評価されるか(UrbanSound8K(US8K)データセットの非公式な分割)の相違によるものであり、フィールド全体の進行を歪めている。
この論文の貢献は2つある。
まず,単音とステレオ音の入力に本質的に適合するモデルを提案する。
我々のモデルは単純な対数パワー短時間フーリエ変換(stft)スペクトログラムに基づいており、画像領域(resnet, siamese-like network and attention)からの既知のアプローチと組み合わせている。
クロスドメイン事前トレーニング,アーキテクチャ変更の影響を調査し,標準データセットに対するモデルの評価を行う。
本モデルでは,97.0 % (ESC-10), 91.5 % (ESC-50),84.2 % / 85.4 % (US8K mono / stereo) の精度を達成して,既知のアプローチを公平に比較した。
第2に,us8kデータセットで以前に報告されたいくつかの結果を公式と非公式の分割で区別することにより,フィールドの実際の状態を包括的に概観する。
再現性を向上するため、コード(再実装を含む)が利用可能です。
関連論文リスト
- CFDP: Common Frequency Domain Pruning [0.3021678014343889]
本稿では,周波数領域を経由したモデルプルーニングのための新しいエンドツーエンドパイプラインを提案する。
我々はCIFAR-10で、GoogLeNetが95.25%、すなわちオリジナルのモデルから+0.2%の精度で達成した。
特筆すべきパフォーマンスに加えて、CFDPによって生成されたモデルは、様々な構成に対して堅牢性を示す。
論文 参考訳(メタデータ) (2023-06-07T04:49:26Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z) - FIXED: Frustratingly Easy Domain Generalization with Mixup [53.782029033068675]
ドメイン一般化(Domain Generalization, DG)は、複数のトレーニングドメインから一般化可能なモデルを学ぶことを目的としている。
一般的な戦略は、Mixupcitezhang 2018mixupのようなメソッドによる一般化のためにトレーニングデータを拡張することである。
我々は、MixupベースのDG、すなわちドメイン不変の特徴mIXup(FIX)の簡易かつ効果的な拡張を提案する。
提案手法は,9つの最先端手法よりも優れており,試験精度の面では,ベースラインの平均6.5%を上回っている。
論文 参考訳(メタデータ) (2022-11-07T09:38:34Z) - AudioCLIP: Extending CLIP to Image, Text and Audio [6.585049648605185]
テキストや画像に加えて音声を扱うCLIPモデルの拡張を提案する。
提案モデルでは,AudioSetデータセットを用いてESResNeXtオーディオモデルをCLIPフレームワークに組み込む。
環境音分類(ESC)タスクにおいて,AudioCLIPは新たな最先端結果を実現する。
論文 参考訳(メタデータ) (2021-06-24T14:16:38Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Perceiver: General Perception with Iterative Attention [85.65927856589613]
我々は,トランスフォーマーを基盤とするモデルであるperceiverを紹介する。
このアーキテクチャは、分類タスクにおいて、競争的、または強固な、専門的なモデル以上のパフォーマンスを示す。
また、AudioSetのすべてのモダリティの最先端の結果を超えています。
論文 参考訳(メタデータ) (2021-03-04T18:20:50Z) - SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-03-02T18:42:45Z) - Urban Sound Classification : striving towards a fair comparison [0.0]
我々は,都市の騒音汚染のモニタリングを支援するために,DCASE 2020タスク5の入賞ソリューションを提案する。
これは、検証セットの粗い/細かい分類のための0.82 / 0.62のマクロAUPRCを達成する。
ESC-50とUS8kデータセットでそれぞれ89.7%と85.41%に達する。
論文 参考訳(メタデータ) (2020-10-22T15:37:39Z) - $n$-Reference Transfer Learning for Saliency Prediction [73.17061116358036]
本稿では,サリエンシ予測のための数発のトランスファー学習パラダイムを提案する。
提案するフレームワークは勾配ベースでモデルに依存しない。
その結果,提案フレームワークは大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2020-07-09T23:20:44Z) - Learning Meta Face Recognition in Unseen Domains [74.69681594452125]
メタ顔認識(MFR)というメタラーニングを用いた新しい顔認識手法を提案する。
MFRは、メタ最適化目標を用いてソース/ターゲットドメインシフトを合成する。
一般化顔認識評価のためのベンチマークを2つ提案する。
論文 参考訳(メタデータ) (2020-03-17T14:10:30Z) - Acoustic Scene Classification Using Bilinear Pooling on Time-liked and
Frequency-liked Convolution Neural Network [4.131608702779222]
本稿では、高調波とパーカッシブ音源分離(HPSS)を用いて、音声を高調波とパーカッシブ音源に分割する方法について検討する。
これら2つのCNNから抽出された深い特徴は、双線形プールによって結合される。
このモデルはDCASE 2019サブタスク1aデータセットで評価されており、開発データセットで平均65%のスコアを得ている。
論文 参考訳(メタデータ) (2020-02-14T04:06:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。