論文の概要: Transformer-based Sequence Labeling for Audio Classification based on
MFCCs
- arxiv url: http://arxiv.org/abs/2305.00417v2
- Date: Wed, 5 Jul 2023 05:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 22:26:47.983309
- Title: Transformer-based Sequence Labeling for Audio Classification based on
MFCCs
- Title(参考訳): MFCCに基づく音声分類のためのトランスフォーマーに基づくシーケンスラベリング
- Authors: C. S. Sonali, Chinmayi B S, Ahana Balasubramanian
- Abstract要約: 本稿では,MFCCを用いた音声分類のためのトランスフォーマーエンコーダモデルを提案する。
モデルはESC-50、Speech Commands v0.02、UrbanSound8kのデータセットに対してベンチマークされ、高いパフォーマンスを示している。
モデルは127,544の合計パラメータで構成されており、オーディオ分類タスクでは軽量だが高効率である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio classification is vital in areas such as speech and music recognition.
Feature extraction from the audio signal, such as Mel-Spectrograms and MFCCs,
is a critical step in audio classification. These features are transformed into
spectrograms for classification. Researchers have explored various techniques,
including traditional machine and deep learning methods to classify
spectrograms, but these can be computationally expensive. To simplify this
process, a more straightforward approach inspired by sequence classification in
NLP can be used. This paper proposes a Transformer-encoder-based model for
audio classification using MFCCs. The model was benchmarked against the ESC-50,
Speech Commands v0.02 and UrbanSound8k datasets and has shown strong
performance, with the highest accuracy of 95.2% obtained upon training the
model on the UrbanSound8k dataset. The model consisted of a mere 127,544 total
parameters, making it light-weight yet highly efficient at the audio
classification task.
- Abstract(参考訳): 音声分類は音声や音楽認識などの分野において不可欠である。
Mel-SpectrogramsやMFCCsのような音声信号から特徴抽出は、音声分類における重要なステップである。
これらの特徴は分類のために分光図に変換される。
研究者は、スペクトログラムを分類する従来の機械学習やディープラーニングの手法を含む様々な技術を調査してきたが、これらは計算コストが高い可能性がある。
このプロセスを単純化するために、NLPのシーケンス分類にインスパイアされたより簡単なアプローチが利用できる。
MFCCを用いた音声分類のためのトランスフォーマーエンコーダモデルを提案する。
モデルはESC-50、Speech Commands v0.02、UrbanSound8kのデータセットに対してベンチマークされ、UrbanSound8kデータセットでモデルをトレーニングした際の最高精度は95.2%であった。
モデルは127,544の合計パラメータで構成されており、オーディオ分類タスクでは軽量だが高効率である。
関連論文リスト
- Machine Learning Framework for Audio-Based Content Evaluation using MFCC, Chroma, Spectral Contrast, and Temporal Feature Engineering [0.0]
そこで本研究では,YouTube上の音楽カバーの音声サンプルと,オリジナル曲の音声とユーザコメントからの感情スコアを含むデータセットを構築した。
我々のアプローチは、広範囲な事前処理、音声信号を30秒のウィンドウに分割し、高次元の特徴表現を抽出することである。
回帰モデルを用いて感情スコアを0-100スケールで予測し,それぞれ3.420,5.482,2.783,4.212の根平均二乗誤差(RMSE)値を達成する。
論文 参考訳(メタデータ) (2024-10-31T20:26:26Z) - Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Studying the Effect of Audio Filters in Pre-Trained Models for Environmental Sound Classification [0.0]
我々は過去数年間に,ログメルスペクトル,ガンマトンスペクトル係数,メルスペクトル係数などの様々なオーディオ特徴から,様々なCNNモデルを用いて音声特徴を学習してきた。
本稿では,2レベル分類という新たな手法を提案する。レベル1は音声信号をより広いクラスに分類し,レベル2は音声が属する実際のクラスを見つける。
また,本論文では,Audio Cropの新たな手法を導入し,アキュの最大化を図った。
論文 参考訳(メタデータ) (2024-08-24T18:13:07Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-03-02T18:42:45Z) - Deep Convolutional and Recurrent Networks for Polyphonic Instrument
Classification from Monophonic Raw Audio Waveforms [30.3491261167433]
サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。
効率的な特徴抽出器としてのディープニューラルネットワークは、分類目的にオーディオ信号を直接使用可能にする。
生の波形を深層学習モデルに入力するだけで,ポリフォニック・オーディオで楽器を認識する。
論文 参考訳(メタデータ) (2021-02-13T13:44:46Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。