論文の概要: Investigating Multi-Feature Selection and Ensembling for Audio
Classification
- arxiv url: http://arxiv.org/abs/2206.07511v1
- Date: Wed, 15 Jun 2022 13:11:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 23:59:09.563162
- Title: Investigating Multi-Feature Selection and Ensembling for Audio
Classification
- Title(参考訳): 音声分類のための多機能選択とセンシングの検討
- Authors: Muhammad Turab and Teerath Kumar and Malika Bendechache and Takfarinas
Saber
- Abstract要約: ディープラーニングアルゴリズムは、様々な領域で素晴らしいパフォーマンスを示している。
オーディオはここ数十年、興味深いパターンのために多くの研究者を惹きつけてきた。
音声分類の性能向上のために、特徴選択と組み合わせが重要な役割を担っている。
- 参考スコア(独自算出の注目度): 0.8602553195689513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Learning (DL) algorithms have shown impressive performance in diverse
domains. Among them, audio has attracted many researchers over the last couple
of decades due to some interesting patterns--particularly in classification of
audio data. For better performance of audio classification, feature selection
and combination play a key role as they have the potential to make or break the
performance of any DL model. To investigate this role, we conduct an extensive
evaluation of the performance of several cutting-edge DL models (i.e.,
Convolutional Neural Network, EfficientNet, MobileNet, Supper Vector Machine
and Multi-Perceptron) with various state-of-the-art audio features (i.e., Mel
Spectrogram, Mel Frequency Cepstral Coefficients, and Zero Crossing Rate)
either independently or as a combination (i.e., through ensembling) on three
different datasets (i.e., Free Spoken Digits Dataset, Audio Urdu Digits
Dataset, and Audio Gujarati Digits Dataset). Overall, results suggest feature
selection depends on both the dataset and the model. However, feature
combinations should be restricted to the only features that already achieve
good performances when used individually (i.e., mostly Mel Spectrogram, Mel
Frequency Cepstral Coefficients). Such feature combination/ensembling enabled
us to outperform the previous state-of-the-art results irrespective of our
choice of DL model.
- Abstract(参考訳): ディープラーニング(DL)アルゴリズムは、様々な領域で素晴らしいパフォーマンスを示している。
特に音声データの分類に関して興味深いパターンがあるため、オーディオはここ数十年にわたって多くの研究者を惹きつけてきた。
オーディオ分類のパフォーマンス向上のため、機能選択と組み合わせは、あらゆるdlモデルのパフォーマンスを損なう可能性があるため、重要な役割を果たす。
To investigate this role, we conduct an extensive evaluation of the performance of several cutting-edge DL models (i.e., Convolutional Neural Network, EfficientNet, MobileNet, Supper Vector Machine and Multi-Perceptron) with various state-of-the-art audio features (i.e., Mel Spectrogram, Mel Frequency Cepstral Coefficients, and Zero Crossing Rate) either independently or as a combination (i.e., through ensembling) on three different datasets (i.e., Free Spoken Digits Dataset, Audio Urdu Digits Dataset, and Audio Gujarati Digits Dataset).
全体としては、機能の選択はデータセットとモデルの両方に依存します。
しかしながら、機能の組み合わせは、個々の使用時に既に優れたパフォーマンスを達成している機能(主にMel Spectrogram、Mel Frequency Cepstral Coefficients)に制限されるべきである。
このような機能の組み合わせ/アンサンブルにより、DLモデルの選択に関係なく、従来の最先端の結果よりも優れた結果が得られる。
関連論文リスト
- Music Genre Classification: A Comparative Analysis of CNN and XGBoost
Approaches with Mel-frequency cepstral coefficients and Mel Spectrograms [0.0]
提案した畳み込みニューラルネットワーク(CNN)、完全連結層(FC)を持つVGG16、異なる特徴に対するeXtreme Gradient Boosting(XGBoost)アプローチの3つのモデルの性能について検討した。
さらに,データ前処理フェーズにデータセグメンテーションを適用することで,CNNの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-01-09T01:50:31Z) - Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。
当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文 参考訳(メタデータ) (2023-10-12T13:09:40Z) - A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Audio-Visual Deception Detection: DOLOS Dataset and Parameter-Efficient
Crossmodal Learning [21.270905512076425]
DOLOS(DOLOS)は,ゲームショーの偽装検出データセットとして最大であり,深い偽装会話が可能である。
我々は、異なる要因の影響を調べるために、列車試験、期間、性別プロトコルを提供する。
マルチタスク学習を利用して、偽装と音声・視覚的特徴を同時予測することで、性能を向上させる。
論文 参考訳(メタデータ) (2023-03-09T08:12:16Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。