論文の概要: Learning Temporal Resolution in Spectrogram for Audio Classification
- arxiv url: http://arxiv.org/abs/2210.01719v3
- Date: Fri, 12 Jan 2024 18:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-16 00:28:03.143628
- Title: Learning Temporal Resolution in Spectrogram for Audio Classification
- Title(参考訳): 音声分類のためのスペクトログラムの時間分解能学習
- Authors: Haohe Liu, Xubo Liu, Qiuqiang Kong, Wenwu Wang, Mark D. Plumbley
- Abstract要約: 本稿では,音声分類のための時間分解能の識別が可能な新しい手法DiffResを提案する。
固定ホップサイズで計算されたスペクトログラムが与えられた場合、DiffResは重要なフレームを保持しながら非必要時間フレームをマージする。
固定時間分解能を用いた従来の手法と比較して、DiffResベースの手法は、少なくとも25%の計算コスト削減で同等またはより良い分類精度を達成することができる。
- 参考スコア(独自算出の注目度): 40.80903296278466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The audio spectrogram is a time-frequency representation that has been widely
used for audio classification. One of the key attributes of the audio
spectrogram is the temporal resolution, which depends on the hop size used in
the Short-Time Fourier Transform (STFT). Previous works generally assume the
hop size should be a constant value (e.g., 10 ms). However, a fixed temporal
resolution is not always optimal for different types of sound. The temporal
resolution affects not only classification accuracy but also computational
cost. This paper proposes a novel method, DiffRes, that enables differentiable
temporal resolution modeling for audio classification. Given a spectrogram
calculated with a fixed hop size, DiffRes merges non-essential time frames
while preserving important frames. DiffRes acts as a "drop-in" module between
an audio spectrogram and a classifier and can be jointly optimized with the
classification task. We evaluate DiffRes on five audio classification tasks,
using mel-spectrograms as the acoustic features, followed by off-the-shelf
classifier backbones. Compared with previous methods using the fixed temporal
resolution, the DiffRes-based method can achieve the equivalent or better
classification accuracy with at least 25% computational cost reduction. We
further show that DiffRes can improve classification accuracy by increasing the
temporal resolution of input acoustic features, without adding to the
computational cost.
- Abstract(参考訳): オーディオスペクトログラム(audio spectrogram)は、オーディオ分類に広く使われている時間周波数表現である。
音声スペクトログラムの重要な特徴の1つは時間分解能であり、これはショートタイムフーリエ変換(STFT)で使用されるホップサイズに依存する。
以前の作品では、ホップサイズを一定値(例えば10ms)と仮定している。
しかし、固定時間分解能は異なる種類の音に対して常に最適であるとは限らない。
時間分解能は分類精度だけでなく計算コストにも影響を及ぼす。
本稿では,音声分類のための時間分解能の識別が可能な新しい手法DiffResを提案する。
固定ホップサイズで計算されたスペクトログラムが与えられた場合、DiffResは重要なフレームを保持しながら非必要時間フレームをマージする。
DiffResはオーディオスペクトログラムと分類器の間の"ドロップイン"モジュールとして機能し、分類タスクと共同で最適化できる。
音響特性としてメル・スペクトログラムを用い、5つの音声分類タスクにおいてDiffResを評価する。
固定時間分解能を用いた従来の手法と比較して、DiffResベースの手法は、少なくとも25%の計算コスト削減で同等またはより良い分類精度を達成することができる。
さらに,DiffResは,入力音響特性の時間分解能を高めることで,計算コストを増大させることなく,分類精度を向上させることができることを示す。
関連論文リスト
- Machine Learning Framework for Audio-Based Content Evaluation using MFCC, Chroma, Spectral Contrast, and Temporal Feature Engineering [0.0]
そこで本研究では,YouTube上の音楽カバーの音声サンプルと,オリジナル曲の音声とユーザコメントからの感情スコアを含むデータセットを構築した。
我々のアプローチは、広範囲な事前処理、音声信号を30秒のウィンドウに分割し、高次元の特徴表現を抽出することである。
回帰モデルを用いて感情スコアを0-100スケールで予測し,それぞれ3.420,5.482,2.783,4.212の根平均二乗誤差(RMSE)値を達成する。
論文 参考訳(メタデータ) (2024-10-31T20:26:26Z) - Multi-View Frequency-Attention Alternative to CNN Frontends for
Automatic Speech Recognition [12.980843126905203]
周波数に対するグローバルな関心は、局所的な畳み込みよりも有益であることを示す。
畳み込み型ニューラルネットワークトランスデューサに代えて,生産規模での単語誤り率を2.4%削減する。
論文 参考訳(メタデータ) (2023-06-12T08:37:36Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Play It Back: Iterative Attention for Audio Recognition [104.628661890361]
聴覚認知の重要な機能は、特徴音とそれに対応する意味を時間とともに関連付けることである。
本稿では,最も識別性の高い音に対して選択的な繰り返しを通し,終端から終端までの注意に基づくアーキテクチャを提案する。
提案手法は,3つのオーディオ分類ベンチマークにおいて常に最先端の性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-20T15:03:22Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。