論文の概要: GAFX: A General Audio Feature eXtractor
- arxiv url: http://arxiv.org/abs/2207.09145v1
- Date: Tue, 19 Jul 2022 09:37:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 14:24:55.693418
- Title: GAFX: A General Audio Feature eXtractor
- Title(参考訳): GAFX: 一般的なオーディオ機能eXtractor
- Authors: Zhaoyang Bu, Hanhaodi Zhang, Xiaohu Zhu
- Abstract要約: 本稿では,2つのU-Net (GAFX-U), ResNet (GAFX-R), Attention (GAFX-A) モジュールをベースとしたGAFX(General Audio Feature eXtractor)を提案する。
我々は、GTZANデータセット上での音楽ジャンル分類タスクにおいて、このモデルを評価する実験を設計する。
- 参考スコア(独自算出の注目度): 0.8594140167290097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most machine learning models for audio tasks are dealing with a handcrafted
feature, the spectrogram. However, it is still unknown whether the spectrogram
could be replaced with deep learning based features. In this paper, we answer
this question by comparing the different learnable neural networks extracting
features with a successful spectrogram model and proposed a General Audio
Feature eXtractor (GAFX) based on a dual U-Net (GAFX-U), ResNet (GAFX-R), and
Attention (GAFX-A) modules. We design experiments to evaluate this model on the
music genre classification task on the GTZAN dataset and perform a detailed
ablation study of different configurations of our framework and our model
GAFX-U, following the Audio Spectrogram Transformer (AST) classifier achieves
competitive performance.
- Abstract(参考訳): 音声タスクのためのほとんどの機械学習モデルは、手作りの機能であるスペクトログラムを扱う。
しかし、このスペクトログラムがディープラーニングベースの機能に置き換えられるかどうかはまだ不明である。
本稿では、異なる学習可能なニューラルネットワークの特徴抽出を成功したスペクトログラムモデルと比較し、デュアルu-net(gafx-u)、resnet(gafx-r)、アテンション(gafx-a)モジュールに基づく一般音声特徴抽出器(gafx)を提案する。
我々は,GTZANデータセットの楽曲ジャンル分類タスクにおいて,このモデルを評価する実験を設計し,我々のフレームワークとモデルGAFX-Uの異なる構成について,Audio Spectrogram Transformer (AST)分類器に追従して詳細なアブレーション研究を行う。
関連論文リスト
- Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Deepfake Audio Detection Using Spectrogram-based Feature and Ensemble of Deep Learning Models [42.39774323584976]
本稿では,ディープフェイク音声検出作業のためのディープラーニングベースシステムを提案する。
特に、ドロー入力オーディオは、まず様々なスペクトログラムに変換される。
我々は、Whisper、Seamless、Speechbrain、Pyannoteといった最先端のオーディオ事前訓練モデルを利用して、オーディオ埋め込みを抽出する。
論文 参考訳(メタデータ) (2024-07-01T20:10:43Z) - Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models [53.48409081555687]
本研究では,視覚機能のためのCLIP,音声機能のためのCLAPといった,このような大規模な事前学習モデルについて検討する。
本稿では,フィードフォワードニューラルネットワークのみに依存する,シンプルで効果的なモデルを提案する。
本フレームワークは,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSL上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-09T13:39:37Z) - Music Genre Classification: A Comparative Analysis of CNN and XGBoost
Approaches with Mel-frequency cepstral coefficients and Mel Spectrograms [0.0]
提案した畳み込みニューラルネットワーク(CNN)、完全連結層(FC)を持つVGG16、異なる特徴に対するeXtreme Gradient Boosting(XGBoost)アプローチの3つのモデルの性能について検討した。
さらに,データ前処理フェーズにデータセグメンテーションを適用することで,CNNの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-01-09T01:50:31Z) - SpectralGPT: Spectral Remote Sensing Foundation Model [60.023956954916414]
SpectralGPTという名前のユニバーサルRS基盤モデルは、新しい3D生成事前学習変換器(GPT)を用いてスペクトルRS画像を処理するために構築されている。
既存の基礎モデルと比較して、SpectralGPTは、様々なサイズ、解像度、時系列、領域をプログレッシブトレーニング形式で対応し、広範なRSビッグデータのフル活用を可能にする。
我々の評価では、事前訓練されたスペクトルGPTモデルによる顕著な性能向上が強調され、地球科学分野におけるスペクトルRSビッグデータ応用の進展に有意な可能性を示唆している。
論文 参考訳(メタデータ) (2023-11-13T07:09:30Z) - Graph Classification Gaussian Processes via Spectral Features [7.474662887810221]
グラフ分類は、その構造とノード属性に基づいてグラフを分類することを目的としている。
本研究では,スペクトル特徴を導出するグラフ信号処理ツールを用いて,この課題に取り組むことを提案する。
このような単純なアプローチであっても、学習されたパラメータがなくても、強力なニューラルネットワークやグラフカーネルのベースラインと比較して、競争力のあるパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2023-06-06T15:31:05Z) - Transformer-based Sequence Labeling for Audio Classification based on
MFCCs [0.0]
本稿では,MFCCを用いた音声分類のためのトランスフォーマーエンコーダモデルを提案する。
モデルはESC-50、Speech Commands v0.02、UrbanSound8kのデータセットに対してベンチマークされ、高いパフォーマンスを示している。
モデルは127,544の合計パラメータで構成されており、オーディオ分類タスクでは軽量だが高効率である。
論文 参考訳(メタデータ) (2023-04-30T07:25:43Z) - Specformer: Spectral Graph Neural Networks Meet Transformers [51.644312964537356]
スペクトルグラフニューラルネットワーク(GNN)は、スペクトル領域グラフ畳み込みを通じてグラフ表現を学習する。
本稿では、全ての固有値の集合を効果的に符号化し、スペクトル領域で自己アテンションを行うSpecformerを紹介する。
複数のSpecformerレイヤを積み重ねることで、強力なスペクトルGNNを構築することができる。
論文 参考訳(メタデータ) (2023-03-02T07:36:23Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Taming Visually Guided Sound Generation [21.397106355171946]
近年の視覚誘発音声生成の進歩は,短音,低忠実音,一級音のサンプリングに基づいている。
本稿では,オープンドメインビデオから一組のフレームで誘導される高忠実度音を,単一のGPUで再生するよりも少ない時間で生成できる単一モデルを提案する。
論文 参考訳(メタデータ) (2021-10-17T11:14:00Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。