論文の概要: Effective Audio Classification Network Based on Paired Inverse Pyramid
Structure and Dense MLP Block
- arxiv url: http://arxiv.org/abs/2211.02940v1
- Date: Sat, 5 Nov 2022 16:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 18:42:12.792725
- Title: Effective Audio Classification Network Based on Paired Inverse Pyramid
Structure and Dense MLP Block
- Title(参考訳): Paired Inverse Pyramid StructureとDense MLP Blockに基づく効果的な音声分類網
- Authors: Yunhao Chen, Yunjie Zhu, Zihui Yan and Lifang Chen
- Abstract要約: 我々は、Paired Inverse Pyramid Structure (PIP) と呼ばれる効率的なネットワーク構造と、Paired Inverse Pyramid Structure Network (PIPMN) と呼ばれるネットワークを提案する。
PIPMNはUrbanSound8Kデータセットで環境音分類(ESC)の96%、GTAデータセットで音楽ジャンル分類(MGC)の93.2%に達する。
どちらの結果も、データ拡張やモデル転送なしで達成される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, massive architectures based on Convolutional Neural Network (CNN)
and self-attention mechanisms have become necessary for audio classification.
While these techniques are state-of-the-art, these works' effectiveness can
only be guaranteed with huge computational costs and parameters, large amounts
of data augmentation, transfer from large datasets and some other tricks. By
utilizing the lightweight nature of audio, we propose an efficient network
structure called Paired Inverse Pyramid Structure (PIP) and a network called
Paired Inverse Pyramid Structure MLP Network (PIPMN). The PIPMN reaches 96\% of
Environmental Sound Classification (ESC) accuracy on the UrbanSound8K dataset
and 93.2\% of Music Genre Classification (MGC) on the GTAZN dataset, with only
1 million parameters. Both of the results are achieved without data
augmentation or model transfer. Public code is available at:
https://github.com/JNAIC/PIPMN
- Abstract(参考訳): 近年,畳み込みニューラルネットワーク(CNN)と自己認識機構に基づく大規模アーキテクチャが,音声分類に必要となっている。
これらのテクニックは最先端技術であるが、これらの作業の有効性は、膨大な計算コストとパラメータ、大量のデータ拡張、大規模なデータセットからの転送などによってのみ保証される。
本稿では,音声の軽量性を活用することで,ペア化逆ピラミッド構造(pip)とペア化逆ピラミッド構造mlpネットワーク(pipmn)と呼ばれる効率的なネットワーク構造を提案する。
pipmnは、urbansound8kデータセットにおける環境音分類(esc)精度の96\%、gtaznデータセット上の音楽ジャンル分類(mgc)の93.2\%に到達し、パラメータはわずか100万である。
両方の結果はデータ拡張やモデル転送なしで達成されます。
公開コードはhttps://github.com/jnaic/pipmn。
関連論文リスト
- ATGNN: Audio Tagging Graph Neural Network [25.78859233831268]
ATGNNは学習可能なクラス埋め込みとスペクトログラム領域間の意味関係をマッピングするグラフニューラルネットワークアーキテクチャである。
我々は2つのオーディオタグタスクでATGNNを評価し、FSD50Kデータセットで0.585 mAP、AudioSetバランスデータセットで0.335 mAPを達成する。
論文 参考訳(メタデータ) (2023-11-02T18:19:26Z) - LEAN: Light and Efficient Audio Classification Network [1.5070398746522742]
音声分類のための軽量デバイス深層学習モデルLEANを提案する。
LEANは、ウェーブニアライメント(Wave realignment)と呼ばれる生波形ベースの時間的特徴抽出器と、ログメルベースの事前学習YAMNetから構成される。
トレーニング可能なウェーブエンコーダと事前学習されたYAMNetとクロスアテンションに基づく時間的アライメントを組み合わせることで、より少ないメモリフットプリントを持つ下流オーディオ分類タスクにおける競合性能が得られることを示す。
論文 参考訳(メタデータ) (2023-05-22T04:45:04Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge
Distillation [6.617487928813374]
高性能だが複雑な変換器からのオフライン知識蒸留(KD)に基づく効率的なCNNの訓練手順を提案する。
我々は、低複雑さモデルからAudioSetの.483 mAPの新たな最先端パフォーマンスまで、さまざまな複雑さレベルのモデルを提供しています。
論文 参考訳(メタデータ) (2022-11-09T09:58:22Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-03-02T18:42:45Z) - Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。
提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。
2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-12-23T09:33:11Z) - An Ensemble of Convolutional Neural Networks for Audio Classification [9.174145063580882]
音声分類のためのCNNのアンサンブルを提示し、3つの無料で利用可能な音声分類データセットで検証する。
我々の知る限りでは、これは音声分類のためのCNNのアンサンブルを調査する最も広範な研究である。
論文 参考訳(メタデータ) (2020-07-15T19:41:15Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。