論文の概要: Diffusion in Zero-Shot Learning for Environmental Audio
- arxiv url: http://arxiv.org/abs/2412.03771v1
- Date: Wed, 04 Dec 2024 23:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:39:04.209426
- Title: Diffusion in Zero-Shot Learning for Environmental Audio
- Title(参考訳): 環境オーディオのためのゼロショット学習における拡散
- Authors: Ysobel Sims, Stephan Chalup, Alexandre Mendes,
- Abstract要約: ゼロショット学習により、セマンティック情報を活用することで、モデルは目に見えないクラスに一般化できる。
コンピュータビジョンで成功した生成手法は、環境オーディオゼロショット学習に特に欠落している。
本研究では環境オーディオゼロショット学習のための生成手法の最初のベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License:
- Abstract: Zero-shot learning enables models to generalize to unseen classes by leveraging semantic information, bridging the gap between training and testing sets with non-overlapping classes. While much research has focused on zero-shot learning in computer vision, the application of these methods to environmental audio remains underexplored, with poor performance in existing studies. Generative methods, which have demonstrated success in computer vision, are notably absent from environmental audio zero-shot learning, where classification-based approaches dominate. To address this gap, this work investigates generative methods for zero-shot learning in environmental audio. Two successful generative models from computer vision are adapted: a cross-aligned and distribution-aligned variational autoencoder (CADA-VAE) and a leveraging invariant side generative adversarial network (LisGAN). Additionally, a novel diffusion model conditioned on class auxiliary data is introduced. The diffusion model generates synthetic data for unseen classes, which is combined with seen-class data to train a classifier. Experiments are conducted on two environmental audio datasets, ESC-50 and FSC22. Results show that the diffusion model significantly outperforms all baseline methods, achieving more than 25% higher accuracy on the ESC-50 test partition. This work establishes the diffusion model as a promising generative approach for zero-shot learning and introduces the first benchmark of generative methods for environmental audio zero-shot learning, providing a foundation for future research in the field. Code is provided at https://github.com/ysims/ZeroDiffusion for the novel ZeroDiffusion method.
- Abstract(参考訳): ゼロショット学習は、セマンティック情報を活用し、オーバーラップしないクラスでトレーニングとテストセット間のギャップを埋めることによって、モデルが目に見えないクラスに一般化することを可能にする。
コンピュータビジョンにおけるゼロショット学習に多くの研究が焦点を当ててきたが、これらの手法の環境オーディオへの応用はいまだに未検討であり、既存の研究では性能が劣っている。
コンピュータビジョンで成功した生成手法は、分類に基づくアプローチが支配的な環境オーディオゼロショット学習に特に欠落している。
このギャップに対処するため,環境オーディオにおけるゼロショット学習のための生成手法について検討した。
コンピュータビジョンで成功した2つの生成モデル – CADA-VAE(英語版)とLisGAN(英語版)(英語版)の相互アライメントと分散アライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントアライメントア・オートエンコーダ(CADA-VAE) - を適応
また、クラス補助データに条件付けされた新しい拡散モデルを導入する。
拡散モデルは、見知らぬクラスのための合成データを生成し、それを目に見えるクラスデータと組み合わせて分類器を訓練する。
ESC-50とFSC22の2つの環境オーディオデータセットで実験を行った。
その結果,ESC-50テストパーティションにおいて,拡散モデルがすべてのベースライン法を有意に上回り,25%以上の精度が得られた。
本研究は、ゼロショット学習のための有望な生成手法として拡散モデルを確立し、環境オーディオゼロショット学習のための生成方法の最初のベンチマークを導入し、この分野における将来の研究の基礎となる。
コードはZeroDiffusionメソッドのためにhttps://github.com/ysims/ZeroDiffusionで提供されている。
関連論文リスト
- Joint Diffusion models in Continual Learning [4.013156524547073]
共同拡散モデルに基づく生成的リハーサルを用いた連続学習法であるJDCLを紹介する。
生成的再生に基づく連続学習手法は、生成的モデルからサンプリングされた新しいデータとリハーサルデータを組み合わせたモデルの再学習によってこの問題を緩和しようとする。
このような共有パラメトリゼーションと知識蒸留技術を組み合わせることで、破滅的な忘れをせずに新しいタスクに安定した適応ができることを示す。
論文 参考訳(メタデータ) (2024-11-12T22:35:44Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - Continual Zero-Shot Learning through Semantically Guided Generative
Random Walks [56.65465792750822]
生成モデルを利用して、学習中に見えない情報が提供されない連続ゼロショット学習の課題に対処する。
本稿では,新しい意味誘導型生成ランダムウォーク(GRW)損失を用いた学習アルゴリズムを提案する。
提案アルゴリズムは,AWA1,AWA2,CUB,SUNデータセットの最先端性能を達成し,既存のCZSL手法を3~7%上回る結果を得た。
論文 参考訳(メタデータ) (2023-08-23T18:10:12Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z) - Learning with Noisy Labels through Learnable Weighting and Centroid Similarity [5.187216033152917]
ノイズラベルは、医学診断や自律運転などの領域で一般的である。
本稿では,雑音ラベルの存在下で機械学習モデルを訓練するための新しい手法を提案する。
以上の結果から,本手法は既存の最先端技術よりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-16T16:43:24Z) - Zero-Shot Logit Adjustment [89.68803484284408]
Generalized Zero-Shot Learning (GZSL) は意味記述に基づく学習技術である。
本稿では,分類器の改良を無視しつつ,ジェネレータの効果を高める新しい世代ベース手法を提案する。
実験により,提案手法が基本生成器と組み合わせた場合の最先端化を実現し,様々なゼロショット学習フレームワークを改良できることが実証された。
論文 参考訳(メタデータ) (2022-04-25T17:54:55Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-03-02T18:42:45Z) - Imbalanced Data Learning by Minority Class Augmentation using Capsule
Adversarial Networks [31.073558420480964]
本稿では,2つの同時手法を合体させて,不均衡な画像のバランスを回復する手法を提案する。
我々のモデルでは、生成的および識別的ネットワークは、新しい競争力のあるゲームをする。
カプセルGANの合体は、畳み込みGANと比較して非常に少ないパラメータで重なり合うクラスを認識するのに効果的である。
論文 参考訳(メタデータ) (2020-04-05T12:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。