Fugu-MT 論文翻訳(概要): Investigating Multi-Feature Selection and Ensembling for Audio Classification

論文の概要: Investigating Multi-Feature Selection and Ensembling for Audio Classification

arxiv url: http://arxiv.org/abs/2206.07511v1
Date: Wed, 15 Jun 2022 13:11:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-16 23:59:09.563162
Title: Investigating Multi-Feature Selection and Ensembling for Audio Classification
Title（参考訳）: 音声分類のための多機能選択とセンシングの検討
Authors: Muhammad Turab and Teerath Kumar and Malika Bendechache and Takfarinas Saber
Abstract要約: ディープラーニングアルゴリズムは、様々な領域で素晴らしいパフォーマンスを示している。オーディオはここ数十年、興味深いパターンのために多くの研究者を惹きつけてきた。音声分類の性能向上のために、特徴選択と組み合わせが重要な役割を担っている。
参考スコア（独自算出の注目度）: 0.8602553195689513
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep Learning (DL) algorithms have shown impressive performance in diverse domains. Among them, audio has attracted many researchers over the last couple of decades due to some interesting patterns--particularly in classification of audio data. For better performance of audio classification, feature selection and combination play a key role as they have the potential to make or break the performance of any DL model. To investigate this role, we conduct an extensive evaluation of the performance of several cutting-edge DL models (i.e., Convolutional Neural Network, EfficientNet, MobileNet, Supper Vector Machine and Multi-Perceptron) with various state-of-the-art audio features (i.e., Mel Spectrogram, Mel Frequency Cepstral Coefficients, and Zero Crossing Rate) either independently or as a combination (i.e., through ensembling) on three different datasets (i.e., Free Spoken Digits Dataset, Audio Urdu Digits Dataset, and Audio Gujarati Digits Dataset). Overall, results suggest feature selection depends on both the dataset and the model. However, feature combinations should be restricted to the only features that already achieve good performances when used individually (i.e., mostly Mel Spectrogram, Mel Frequency Cepstral Coefficients). Such feature combination/ensembling enabled us to outperform the previous state-of-the-art results irrespective of our choice of DL model.
Abstract（参考訳）: ディープラーニング(DL)アルゴリズムは、様々な領域で素晴らしいパフォーマンスを示している。特に音声データの分類に関して興味深いパターンがあるため、オーディオはここ数十年にわたって多くの研究者を惹きつけてきた。オーディオ分類のパフォーマンス向上のため、機能選択と組み合わせは、あらゆるdlモデルのパフォーマンスを損なう可能性があるため、重要な役割を果たす。 To investigate this role, we conduct an extensive evaluation of the performance of several cutting-edge DL models (i.e., Convolutional Neural Network, EfficientNet, MobileNet, Supper Vector Machine and Multi-Perceptron) with various state-of-the-art audio features (i.e., Mel Spectrogram, Mel Frequency Cepstral Coefficients, and Zero Crossing Rate) either independently or as a combination (i.e., through ensembling) on three different datasets (i.e., Free Spoken Digits Dataset, Audio Urdu Digits Dataset, and Audio Gujarati Digits Dataset). 全体としては、機能の選択はデータセットとモデルの両方に依存します。しかしながら、機能の組み合わせは、個々の使用時に既に優れたパフォーマンスを達成している機能(主にMel Spectrogram、Mel Frequency Cepstral Coefficients)に制限されるべきである。このような機能の組み合わせ/アンサンブルにより、DLモデルの選択に関係なく、従来の最先端の結果よりも優れた結果が得られる。

関連論文リスト

Unleashing the Power of Natural Audio Featuring Multiple Sound Sources [54.38251699625379]
ユニバーサルサウンド分離は、混合音声から異なるイベントに対応するクリーンなオーディオトラックを抽出することを目的としている。複雑な混合音声を複数の独立したトラックに分解するために,データエンジンを利用するフレームワークであるClearSepを提案する。実験では、ClearSepは複数の音分離タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-04-24T17:58:21Z)
Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。 11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文参考訳（メタデータ） (2024-09-27T12:06:53Z)
Audio Mamba: Selective State Spaces for Self-Supervised Audio Representations [16.269123889392343]
本研究は,汎用音声表現学習のための選択状態空間モデルであるAudio Mambaを提案する。 10種類の多様なオーディオ認識ダウンストリームタスクに対する実験結果から、提案したモデルは、同等の自己教師型オーディオスペクトログラム変換器のベースラインを一貫して上回っていることが示された。
論文参考訳（メタデータ） (2024-06-04T10:19:14Z)
Music Genre Classification: A Comparative Analysis of CNN and XGBoost Approaches with Mel-frequency cepstral coefficients and Mel Spectrograms [0.0]
提案した畳み込みニューラルネットワーク(CNN)、完全連結層(FC)を持つVGG16、異なる特徴に対するeXtreme Gradient Boosting(XGBoost)アプローチの3つのモデルの性能について検討した。さらに,データ前処理フェーズにデータセグメンテーションを適用することで,CNNの性能を大幅に向上させることができる。
論文参考訳（メタデータ） (2024-01-09T01:50:31Z)
Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文参考訳（メタデータ） (2023-10-12T13:09:40Z)
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文参考訳（メタデータ） (2023-09-20T17:59:32Z)
Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。 3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。 AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2023-09-07T17:30:36Z)
AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文参考訳（メタデータ） (2023-08-14T15:47:25Z)
Visually-Guided Sound Source Separation with Audio-Visual Predictive Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文参考訳（メタデータ） (2023-06-19T03:10:57Z)
Anomalous Sound Detection using Audio Representation with Machine ID based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2023-04-07T11:08:31Z)
Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文参考訳（メタデータ） (2020-08-01T07:46:24Z)
COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文参考訳（メタデータ） (2020-06-15T13:17:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。