論文の概要: Transformer-based Sequence Labeling for Audio Classification based on
MFCCs
- arxiv url: http://arxiv.org/abs/2305.00417v2
- Date: Wed, 5 Jul 2023 05:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 22:26:47.983309
- Title: Transformer-based Sequence Labeling for Audio Classification based on
MFCCs
- Title(参考訳): MFCCに基づく音声分類のためのトランスフォーマーに基づくシーケンスラベリング
- Authors: C. S. Sonali, Chinmayi B S, Ahana Balasubramanian
- Abstract要約: 本稿では,MFCCを用いた音声分類のためのトランスフォーマーエンコーダモデルを提案する。
モデルはESC-50、Speech Commands v0.02、UrbanSound8kのデータセットに対してベンチマークされ、高いパフォーマンスを示している。
モデルは127,544の合計パラメータで構成されており、オーディオ分類タスクでは軽量だが高効率である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio classification is vital in areas such as speech and music recognition.
Feature extraction from the audio signal, such as Mel-Spectrograms and MFCCs,
is a critical step in audio classification. These features are transformed into
spectrograms for classification. Researchers have explored various techniques,
including traditional machine and deep learning methods to classify
spectrograms, but these can be computationally expensive. To simplify this
process, a more straightforward approach inspired by sequence classification in
NLP can be used. This paper proposes a Transformer-encoder-based model for
audio classification using MFCCs. The model was benchmarked against the ESC-50,
Speech Commands v0.02 and UrbanSound8k datasets and has shown strong
performance, with the highest accuracy of 95.2% obtained upon training the
model on the UrbanSound8k dataset. The model consisted of a mere 127,544 total
parameters, making it light-weight yet highly efficient at the audio
classification task.
- Abstract(参考訳): 音声分類は音声や音楽認識などの分野において不可欠である。
Mel-SpectrogramsやMFCCsのような音声信号から特徴抽出は、音声分類における重要なステップである。
これらの特徴は分類のために分光図に変換される。
研究者は、スペクトログラムを分類する従来の機械学習やディープラーニングの手法を含む様々な技術を調査してきたが、これらは計算コストが高い可能性がある。
このプロセスを単純化するために、NLPのシーケンス分類にインスパイアされたより簡単なアプローチが利用できる。
MFCCを用いた音声分類のためのトランスフォーマーエンコーダモデルを提案する。
モデルはESC-50、Speech Commands v0.02、UrbanSound8kのデータセットに対してベンチマークされ、UrbanSound8kデータセットでモデルをトレーニングした際の最高精度は95.2%であった。
モデルは127,544の合計パラメータで構成されており、オーディオ分類タスクでは軽量だが高効率である。
関連論文リスト
- Exploring Meta Information for Audio-based Zero-shot Bird Classification [88.71911948909738]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Improving Post-Processing of Audio Event Detectors Using Reinforcement
Learning [5.758073912084364]
我々は,ポストプロセッシングスタックの様々な段階における最適パラメータを共同で発見するために強化学習を用いる。
音声イベントベースのマクロF1スコアを4-5%改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-19T08:00:26Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound
Classification and Detection [43.50970305209596]
HTS-ATは、モデルサイズとトレーニング時間を短縮する階層構造を持つオーディオトランスである。
従来のCNNベースのモデルよりも、イベントローカライゼーションにおけるパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2022-02-02T04:49:14Z) - SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-03-02T18:42:45Z) - Deep Convolutional and Recurrent Networks for Polyphonic Instrument
Classification from Monophonic Raw Audio Waveforms [30.3491261167433]
サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。
効率的な特徴抽出器としてのディープニューラルネットワークは、分類目的にオーディオ信号を直接使用可能にする。
生の波形を深層学習モデルに入力するだけで,ポリフォニック・オーディオで楽器を認識する。
論文 参考訳(メタデータ) (2021-02-13T13:44:46Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。