論文の概要: Investigating Multi-Feature Selection and Ensembling for Audio
Classification
- arxiv url: http://arxiv.org/abs/2206.07511v1
- Date: Wed, 15 Jun 2022 13:11:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 23:59:09.563162
- Title: Investigating Multi-Feature Selection and Ensembling for Audio
Classification
- Title(参考訳): 音声分類のための多機能選択とセンシングの検討
- Authors: Muhammad Turab and Teerath Kumar and Malika Bendechache and Takfarinas
Saber
- Abstract要約: ディープラーニングアルゴリズムは、様々な領域で素晴らしいパフォーマンスを示している。
オーディオはここ数十年、興味深いパターンのために多くの研究者を惹きつけてきた。
音声分類の性能向上のために、特徴選択と組み合わせが重要な役割を担っている。
- 参考スコア(独自算出の注目度): 0.8602553195689513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Learning (DL) algorithms have shown impressive performance in diverse
domains. Among them, audio has attracted many researchers over the last couple
of decades due to some interesting patterns--particularly in classification of
audio data. For better performance of audio classification, feature selection
and combination play a key role as they have the potential to make or break the
performance of any DL model. To investigate this role, we conduct an extensive
evaluation of the performance of several cutting-edge DL models (i.e.,
Convolutional Neural Network, EfficientNet, MobileNet, Supper Vector Machine
and Multi-Perceptron) with various state-of-the-art audio features (i.e., Mel
Spectrogram, Mel Frequency Cepstral Coefficients, and Zero Crossing Rate)
either independently or as a combination (i.e., through ensembling) on three
different datasets (i.e., Free Spoken Digits Dataset, Audio Urdu Digits
Dataset, and Audio Gujarati Digits Dataset). Overall, results suggest feature
selection depends on both the dataset and the model. However, feature
combinations should be restricted to the only features that already achieve
good performances when used individually (i.e., mostly Mel Spectrogram, Mel
Frequency Cepstral Coefficients). Such feature combination/ensembling enabled
us to outperform the previous state-of-the-art results irrespective of our
choice of DL model.
- Abstract(参考訳): ディープラーニング(DL)アルゴリズムは、様々な領域で素晴らしいパフォーマンスを示している。
特に音声データの分類に関して興味深いパターンがあるため、オーディオはここ数十年にわたって多くの研究者を惹きつけてきた。
オーディオ分類のパフォーマンス向上のため、機能選択と組み合わせは、あらゆるdlモデルのパフォーマンスを損なう可能性があるため、重要な役割を果たす。
To investigate this role, we conduct an extensive evaluation of the performance of several cutting-edge DL models (i.e., Convolutional Neural Network, EfficientNet, MobileNet, Supper Vector Machine and Multi-Perceptron) with various state-of-the-art audio features (i.e., Mel Spectrogram, Mel Frequency Cepstral Coefficients, and Zero Crossing Rate) either independently or as a combination (i.e., through ensembling) on three different datasets (i.e., Free Spoken Digits Dataset, Audio Urdu Digits Dataset, and Audio Gujarati Digits Dataset).
全体としては、機能の選択はデータセットとモデルの両方に依存します。
しかしながら、機能の組み合わせは、個々の使用時に既に優れたパフォーマンスを達成している機能(主にMel Spectrogram、Mel Frequency Cepstral Coefficients)に制限されるべきである。
このような機能の組み合わせ/アンサンブルにより、DLモデルの選択に関係なく、従来の最先端の結果よりも優れた結果が得られる。
関連論文リスト
- Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - Audio Mamba: Selective State Spaces for Self-Supervised Audio Representations [16.269123889392343]
本研究は,汎用音声表現学習のための選択状態空間モデルであるAudio Mambaを提案する。
10種類の多様なオーディオ認識ダウンストリームタスクに対する実験結果から、提案したモデルは、同等の自己教師型オーディオスペクトログラム変換器のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-06-04T10:19:14Z) - Music Genre Classification: A Comparative Analysis of CNN and XGBoost
Approaches with Mel-frequency cepstral coefficients and Mel Spectrograms [0.0]
提案した畳み込みニューラルネットワーク(CNN)、完全連結層(FC)を持つVGG16、異なる特徴に対するeXtreme Gradient Boosting(XGBoost)アプローチの3つのモデルの性能について検討した。
さらに,データ前処理フェーズにデータセグメンテーションを適用することで,CNNの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-01-09T01:50:31Z) - Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。
当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文 参考訳(メタデータ) (2023-10-12T13:09:40Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。