論文の概要: Learning the Spectrogram Temporal Resolution for Audio Classification
- arxiv url: http://arxiv.org/abs/2210.01719v2
- Date: Wed, 5 Oct 2022 11:37:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 14:53:08.192456
- Title: Learning the Spectrogram Temporal Resolution for Audio Classification
- Title(参考訳): 音声分類のためのスペクトログラム時間分解能の学習
- Authors: Haohe Liu, Xubo Liu, Qiuqiang Kong, Wenwu Wang, Mark D. Plumbley
- Abstract要約: 本稿では,時間分解能の識別が可能な新しい手法DiffResを提案する。
固定ホップサイズで計算されたスペクトログラムが与えられた場合、DiffResは重要なフレームを保持しながら非必要時間フレームをマージする。
DiffResは同じ計算量で分類精度を向上できることを示す。
- 参考スコア(独自算出の注目度): 57.87860665008328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The audio spectrogram is a time-frequency representation that has been widely
used for audio classification. The temporal resolution of a spectrogram depends
on hop size. Previous works generally assume the hop size should be a constant
value such as ten milliseconds. However, a fixed hop size or resolution is not
always optimal for different types of sound. This paper proposes a novel
method, DiffRes, that enables differentiable temporal resolution learning to
improve the performance of audio classification models. Given a spectrogram
calculated with a fixed hop size, DiffRes merges non-essential time frames
while preserving important frames. DiffRes acts as a "drop-in" module between
an audio spectrogram and a classifier, and can be end-to-end optimized. We
evaluate DiffRes on the mel-spectrogram, followed by state-of-the-art
classifier backbones, and apply it to five different subtasks. Compared with
using the fixed-resolution mel-spectrogram, the DiffRes-based method can
achieve the same or better classification accuracy with at least 25% fewer
temporal dimensions on the feature level, which alleviates the computational
cost at the same time. Starting from a high-temporal-resolution spectrogram
such as one-millisecond hop size, we show that DiffRes can improve
classification accuracy with the same computational complexity.
- Abstract(参考訳): オーディオスペクトログラム(audio spectrogram)は、オーディオ分類に広く使われている時間周波数表現である。
スペクトログラムの時間分解能はホップサイズに依存する。
以前の作品は一般にホップサイズが10ミリ秒のような一定値であるべきだと仮定している。
しかし、固定ホップサイズや解像度は必ずしも異なる種類の音に最適とは限らない。
本稿では,分化可能な時間分解能学習を行い,音声分類モデルの性能を向上させる新しい手法diffresを提案する。
固定ホップサイズで計算されたスペクトログラムが与えられた場合、DiffResは重要なフレームを保持しながら非必要時間フレームをマージする。
DiffResはオーディオスペクトログラムと分類器の間の"ドロップイン"モジュールとして機能し、エンドツーエンドで最適化できる。
mel-spectrogramの差分を評価し、次に最先端の分類器バックボーンを作成し、5つのサブタスクに適用する。
固定解像度のメル-スペクトログラムと比べ、DiffResベースの手法は、特徴量に対して少なくとも25%の時間次元で同じまたはより良い分類精度を達成でき、同時に計算コストを軽減できる。
1ミリ秒ホップサイズなどの高時間分解能スペクトログラムから、DiffResは同じ計算量で分類精度を向上させることができることを示す。
関連論文リスト
- Machine Learning Framework for Audio-Based Content Evaluation using MFCC, Chroma, Spectral Contrast, and Temporal Feature Engineering [0.0]
そこで本研究では,YouTube上の音楽カバーの音声サンプルと,オリジナル曲の音声とユーザコメントからの感情スコアを含むデータセットを構築した。
我々のアプローチは、広範囲な事前処理、音声信号を30秒のウィンドウに分割し、高次元の特徴表現を抽出することである。
回帰モデルを用いて感情スコアを0-100スケールで予測し,それぞれ3.420,5.482,2.783,4.212の根平均二乗誤差(RMSE)値を達成する。
論文 参考訳(メタデータ) (2024-10-31T20:26:26Z) - Multi-View Frequency-Attention Alternative to CNN Frontends for
Automatic Speech Recognition [12.980843126905203]
周波数に対するグローバルな関心は、局所的な畳み込みよりも有益であることを示す。
畳み込み型ニューラルネットワークトランスデューサに代えて,生産規模での単語誤り率を2.4%削減する。
論文 参考訳(メタデータ) (2023-06-12T08:37:36Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Play It Back: Iterative Attention for Audio Recognition [104.628661890361]
聴覚認知の重要な機能は、特徴音とそれに対応する意味を時間とともに関連付けることである。
本稿では,最も識別性の高い音に対して選択的な繰り返しを通し,終端から終端までの注意に基づくアーキテクチャを提案する。
提案手法は,3つのオーディオ分類ベンチマークにおいて常に最先端の性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-20T15:03:22Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。