論文の概要: Feature-Rich Audio Model Inversion for Data-Free Knowledge Distillation
Towards General Sound Classification
- arxiv url: http://arxiv.org/abs/2303.07643v1
- Date: Tue, 14 Mar 2023 06:04:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 16:15:39.622075
- Title: Feature-Rich Audio Model Inversion for Data-Free Knowledge Distillation
Towards General Sound Classification
- Title(参考訳): 一般音分類に向けたデータ自由知識蒸留のための特徴リッチ音響モデルインバージョン
- Authors: Zuheng Kang, Yayun He, Jianzong Wang, Junqing Peng, Xiaoyang Qu, Jing
Xiao
- Abstract要約: 一般音響分類タスクのためのデータフリー知識蒸留フレームワークである機能リッチオーディオモデルインバージョン(FRAMI)を提案する。
Urbansound8k、ESC-50、AudioMNISTデータセットの実験結果は、FRAMIが機能豊富なサンプルを生成することを実証している。
- 参考スコア(独自算出の注目度): 23.35582432472955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-Free Knowledge Distillation (DFKD) has recently attracted growing
attention in the academic community, especially with major breakthroughs in
computer vision. Despite promising results, the technique has not been well
applied to audio and signal processing. Due to the variable duration of audio
signals, it has its own unique way of modeling. In this work, we propose
feature-rich audio model inversion (FRAMI), a data-free knowledge distillation
framework for general sound classification tasks. It first generates
high-quality and feature-rich Mel-spectrograms through a feature-invariant
contrastive loss. Then, the hidden states before and after the statistics
pooling layer are reused when knowledge distillation is performed on these
feature-rich samples. Experimental results on the Urbansound8k, ESC-50, and
audioMNIST datasets demonstrate that FRAMI can generate feature-rich samples.
Meanwhile, the accuracy of the student model is further improved by reusing the
hidden state and significantly outperforms the baseline method.
- Abstract(参考訳): Data-Free Knowledge Distillation (DFKD)は近年,特にコンピュータビジョンの大きなブレークスルーによって,学術コミュニティの注目を集めている。
有望な結果にもかかわらず、この手法は音声や信号処理には適していない。
音声信号の持続時間が可変であるため、独自のモデリング方法を持っている。
本研究では,一般音響分類タスクのためのデータフリー知識蒸留フレームワークである機能リッチオーディオモデルインバージョン (FRAMI) を提案する。
まず、特徴不変のコントラスト損失により、高品質で特徴豊かなメルスペクトログラムを生成する。
そして、これらの特徴豊富な試料に知識蒸留を行う際に、統計プール層前後の隠蔽状態を再利用する。
Urbansound8k、ESC-50、AudioMNISTデータセットの実験結果は、FRAMIが機能豊富なサンプルを生成することを示す。
一方,隠れ状態を再利用することにより,学習モデルの精度がさらに向上し,ベースライン法を大きく上回る。
関連論文リスト
- A Novel Score-CAM based Denoiser for Spectrographic Signature Extraction without Ground Truth [0.0]
本稿では,Score-CAMをベースとした新しいデノイザを開発し,ノイズスペクトルデータからオブジェクトのシグネチャを抽出する。
特に,本論文では,スペクトルトレーニングデータの学習と生成のための,新たな生成逆ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-28T21:40:46Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study [33.10311742703679]
本稿では,AudioLDMを用いた音声生成における事前学習のメリットについて検討する。
本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。
様々な頻繁に使用されるデータセットに対して,音生成タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-03-07T12:49:45Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-03-02T18:42:45Z) - High-Fidelity Audio Generation and Representation Learning with Guided
Adversarial Autoencoder [2.6770746621108654]
GAAE(Guided Adversarial Autoencoder)と呼ばれる新しいオートエンコーダモデルを提案する。
提案モデルでは,実際の音響サンプルと区別できない品質の音声を生成できる。
論文 参考訳(メタデータ) (2020-06-01T12:19:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。