論文の概要: MetaAudio: A Few-Shot Audio Classification Benchmark
- arxiv url: http://arxiv.org/abs/2204.02121v1
- Date: Tue, 5 Apr 2022 11:33:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 15:00:31.168767
- Title: MetaAudio: A Few-Shot Audio Classification Benchmark
- Title(参考訳): metaaudio: 数ショットオーディオ分類ベンチマーク
- Authors: Calum Heggan, Sam Budgett, Timothy Hospedales, Mehrdad Yaghoobi
- Abstract要約: この研究は、画像ベースのベンチマークへの依存を軽減することを目的として、初めて包括的で公開され、完全に再現可能なオーディオベースの代替手段を提供する。
7つの音声データセットにおいて,様々な手法の複数ショットの分類性能を比較した。
実験では,MAMLやMeta-Curvatureのような勾配に基づくメタ学習法が,測定法とベースライン法の両方で一貫して優れていた。
- 参考スコア(独自算出の注目度): 2.294014185517203
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Currently available benchmarks for few-shot learning (machine learning with
few training examples) are limited in the domains they cover, primarily
focusing on image classification. This work aims to alleviate this reliance on
image-based benchmarks by offering the first comprehensive, public and fully
reproducible audio based alternative, covering a variety of sound domains and
experimental settings. We compare the few-shot classification performance of a
variety of techniques on seven audio datasets (spanning environmental sounds to
human-speech). Extending this, we carry out in-depth analyses of joint training
(where all datasets are used during training) and cross-dataset adaptation
protocols, establishing the possibility of a generalised audio few-shot
classification algorithm. Our experimentation shows gradient-based
meta-learning methods such as MAML and Meta-Curvature consistently outperform
both metric and baseline methods. We also demonstrate that the joint training
routine helps overall generalisation for the environmental sound databases
included, as well as being a somewhat-effective method of tackling the
cross-dataset/domain setting.
- Abstract(参考訳): 現在利用可能な、少数ショット学習(トレーニング例の少ない機械学習)のベンチマークは、主に画像分類に焦点を当てたドメインに限定されている。
この研究は、様々な音領域と実験的な設定をカバーし、初めて包括的で公開され、完全に再現可能なオーディオベースの代替手段を提供することで、画像ベースのベンチマークへの依存を軽減することを目的としている。
7つのオーディオデータセット(環境音と人間の音声)上で,様々な手法のマイナショット分類性能を比較した。
これを拡張して,共同学習(トレーニング中にすべてのデータセットが使用される)とクロスデータセット適応プロトコルの詳細な分析を行い,一般化された音声マイナショット分類アルゴリズムの可能性を確立した。
実験では,MAMLやMeta-Curvatureのような勾配に基づくメタ学習法が,測定法とベースライン法の両方で一貫して優れていた。
また, 共同学習ルーチンは, 環境音データベースの総合的な一般化に役立ち, クロスデータセット/ドメイン設定に何らかの効果的な手法であることを示す。
関連論文リスト
- LC-Protonets: Multi-label Few-shot learning for world music audio tagging [65.72891334156706]
ラベル結合型プロトタイプネットワーク(LC-Protonets)を導入し,複数ラベルの複数ショット分類の問題に対処する。
LC-Protonetsは、限られたトレーニング項目に存在するラベルのパワーセットから、ラベルの組み合わせごとに1つのプロトタイプを生成する。
本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用する。
論文 参考訳(メタデータ) (2024-09-17T15:13:07Z) - Benchmarking Representations for Speech, Music, and Acoustic Events [24.92641211471113]
ARCHは、多様なオーディオ分類領域上でARLメソッドを評価するための包括的なベンチマークである。
ARCHは12のデータセットで構成されており、異なるサイズのトレーニング済みSSLモデルを徹底的に評価することができます。
現在、非音声のためのオープンソースの事前学習モデルがないことに対処するため、非音声データセット上で強力なパフォーマンスを示す新しい事前学習モデルもリリースする。
論文 参考訳(メタデータ) (2024-05-02T01:24:53Z) - Visual and audio scene classification for detecting discrepancies in video: a baseline method and experimental protocol [6.749750044497733]
まず、両モードを用いた既存の分類基準と比較するため、音声視覚シーン分類器を設計、最適化する。
この分類器を音声と視覚的モダリティに別々に適用することにより、シーンクラスの不整合を検出することができる。
提案手法は,シーン分類における最先端の成果と,音声と視覚の相違検出における有望な結果を実現する。
論文 参考訳(メタデータ) (2024-05-01T08:30:58Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Audio-Visual Scene Classification Using A Transfer Learning Based Joint
Optimization Strategy [26.975596225131824]
AVSCタスクの入力として音響特徴と生画像を直接利用する共同トレーニングフレームワークを提案する。
具体的には、事前学習した画像モデルの底層をビジュアルエンコーダとして検索し、トレーニング中にシーン分類器と1D-CNNベースの音響エンコーダを共同で最適化する。
論文 参考訳(メタデータ) (2022-04-25T03:37:02Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Data-driven Meta-set Based Fine-Grained Visual Classification [61.083706396575295]
本稿では, ノイズの多いWeb画像に対して, 微粒化認識のためのデータ駆動型メタセットベースアプローチを提案する。
具体的には、少量のクリーンなメタセットでガイドされ、メタラーニング方式で選択ネットを訓練し、分布内および分布外ノイズ画像の識別を行う。
論文 参考訳(メタデータ) (2020-08-06T03:04:16Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z) - Meta-Baseline: Exploring Simple Meta-Learning for Few-Shot Learning [79.25478727351604]
評価基準に基づいて,分類済みモデル全体に対するメタラーニング(メタラーニング)を提案する。
我々は,この単純な手法が標準ベンチマークにおける最先端手法との競合性能を達成するのを観察する。
論文 参考訳(メタデータ) (2020-03-09T20:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。