論文の概要: Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning
of Music Audio
- arxiv url: http://arxiv.org/abs/2402.09318v1
- Date: Wed, 14 Feb 2024 17:13:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 14:17:53.613556
- Title: Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning
of Music Audio
- Title(参考訳): 音楽オーディオの解釈可能なプロトタイプ学習のための事前学習オートエンコーダの活用
- Authors: Pablo Alonso-Jim\'enez and Leonardo Pepino and Roser Batlle-Roca and
Pablo Zinemanas and Dmitry Bogdanov and Xavier Serra and Mart\'in Rocamora
- Abstract要約: 本稿では,プロトタイプ学習に基づく音楽音声分類のための解釈可能なモデルPECMAEを提案する。
我々のモデルは,オートエンコーダとプロトタイプネットワークを共同で学習する先行手法であるAPNetに基づいている。
プロトタイプベースのモデルはオートエンコーダの埋め込みによって達成された性能の大部分を保っていることがわかった。
- 参考スコア(独自算出の注目度): 10.946347283718923
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present PECMAE, an interpretable model for music audio classification
based on prototype learning. Our model is based on a previous method, APNet,
which jointly learns an autoencoder and a prototypical network. Instead, we
propose to decouple both training processes. This enables us to leverage
existing self-supervised autoencoders pre-trained on much larger data
(EnCodecMAE), providing representations with better generalization. APNet
allows prototypes' reconstruction to waveforms for interpretability relying on
the nearest training data samples. In contrast, we explore using a diffusion
decoder that allows reconstruction without such dependency. We evaluate our
method on datasets for music instrument classification (Medley-Solos-DB) and
genre recognition (GTZAN and a larger in-house dataset), the latter being a
more challenging task not addressed with prototypical networks before. We find
that the prototype-based models preserve most of the performance achieved with
the autoencoder embeddings, while the sonification of prototypes benefits
understanding the behavior of the classifier.
- Abstract(参考訳): プロトタイプ学習に基づく音楽音声分類のための解釈モデルであるpecmaeを提案する。
我々のモデルは,オートエンコーダとプロトタイプネットワークを共同で学習する先行手法であるAPNetに基づいている。
代わりに、両方のトレーニングプロセスを分離することを提案する。
これにより、ずっと大きなデータ(encodecmae)で事前トレーニングされた既存の自己教師付きオートエンコーダを活用でき、表現をより一般化できます。
APNetは、最も近いトレーニングデータサンプルに依存する解釈可能性のための波形へのプロトタイプの再構築を可能にする。
対照的に,そのような依存を伴わずに再構成が可能な拡散デコーダを用いて検討する。
本研究では,楽器分類のためのデータセット (medley-solos-db) とジャンル認識 (gtzan and a large in-house dataset) について評価を行った。
プロトタイプベースのモデルはオートエンコーダ埋め込みによって達成されたパフォーマンスの大部分を維持しているのに対し,プロトタイプのソニフィケーションは分類器の振る舞いを理解するのに役立つ。
関連論文リスト
- Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Transfer Learning for Passive Sonar Classification using Pre-trained Audio and ImageNet Models [39.85805843651649]
本研究では,事前学習型Audio Neural Networks(PANNs)とImageNet事前学習型モデルを比較した。
また, 受動的ソナー分類において, ImageNet事前学習モデルの方が若干優れていた。
論文 参考訳(メタデータ) (2024-09-20T20:13:45Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping [19.071463356974387]
この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。
本稿では,手工芸とデータ駆動型学習音声機能を組み合わせたハイブリッド音声表現を提案する。
提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。
論文 参考訳(メタデータ) (2022-06-24T02:26:40Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。