論文の概要: A Study of Few-Shot Audio Classification
- arxiv url: http://arxiv.org/abs/2012.01573v1
- Date: Wed, 2 Dec 2020 22:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-22 07:40:33.856118
- Title: A Study of Few-Shot Audio Classification
- Title(参考訳): Few-Shotオーディオ分類の検討
- Authors: Piper Wolters, Chris Careaga, Brian Hutchinson, Lauren Phillips
- Abstract要約: ファウショット学習(Few-shot learning)は、モデルが新しいクラスに一般化できるように設計された機械学習の一種である。
我々は,VoxCelebデータセットとICSI Meeting Corpusの話者識別モデルを評価し,それぞれ93.5%,54.0%の5ショット5ウェイ精度を得た。
また、Kineetics600データセットとAudioSetの少数ショットサブセットを用いてオーディオからのアクティビティ分類を評価し、それぞれ51.5%と35.2%の精度でYouTubeビデオから抽出した。
- 参考スコア(独自算出の注目度): 2.1989764549743476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in deep learning have resulted in state-of-the-art performance for
many audio classification tasks but, unlike humans, these systems traditionally
require large amounts of data to make accurate predictions. Not every person or
organization has access to those resources, and the organizations that do, like
our field at large, do not reflect the demographics of our country. Enabling
people to use machine learning without significant resource hurdles is
important, because machine learning is an increasingly useful tool for solving
problems, and can solve a broader set of problems when put in the hands of a
broader set of people. Few-shot learning is a type of machine learning designed
to enable the model to generalize to new classes with very few examples. In
this research, we address two audio classification tasks (speaker
identification and activity classification) with the Prototypical Network
few-shot learning algorithm, and assess performance of various encoder
architectures. Our encoders include recurrent neural networks, as well as one-
and two-dimensional convolutional neural networks. We evaluate our model for
speaker identification on the VoxCeleb dataset and ICSI Meeting Corpus,
obtaining 5-shot 5-way accuracies of 93.5% and 54.0%, respectively. We also
evaluate for activity classification from audio using few-shot subsets of the
Kinetics~600 dataset and AudioSet, both drawn from Youtube videos, obtaining
51.5% and 35.2% accuracy, respectively.
- Abstract(参考訳): ディープラーニングの進歩は、多くのオーディオ分類タスクに最先端のパフォーマンスをもたらすが、人間とは異なり、これらのシステムは伝統的に正確な予測を行うために大量のデータを必要とする。
すべての個人や組織がこれらのリソースにアクセスできるわけではないし、私たちの分野全体と同様に、私たちの国の人口動態を反映していない組織もある。
なぜなら、機械学習は問題解決に益々役に立つツールであり、より広い範囲の人々の手に入れることで、より広範な問題を解決することができるからです。
ファウショット学習(Few-shot learning)は、モデルが新しいクラスに一般化できるように設計された機械学習の一種である。
本研究では,2つの音声分類タスク(話者識別と活動分類)をプロトタイプ型ネットワークによる少数ショット学習アルゴリズムを用いて解決し,各種エンコーダアーキテクチャの性能評価を行う。
私たちのエンコーダには、リカレントニューラルネットワーク、および1および2次元畳み込みニューラルネットワークが含まれています。
我々は,VoxCelebデータセットとICSI Meeting Corpusの話者識別モデルを評価し,それぞれ93.5%,54.0%の5ショット5ウェイ精度を得た。
また,キネティクス~600データセットとオーディオセットの少数サブセットを用いた音声からの行動分類についても評価し,それぞれ51.5%,35.2%の精度を得た。
関連論文リスト
- Some voices are too common: Building fair speech recognition systems
using the Common Voice dataset [2.28438857884398]
我々は、フレンチ・コモン・ボイス・データセットを用いて、事前訓練されたwav2vec2.0モデルの複数の人口集団に対するバイアスを定量化する。
また、共通音声コーパスの詳細な分析を行い、考慮すべき重要な欠点を特定した。
論文 参考訳(メタデータ) (2023-06-01T11:42:34Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Computing Class Hierarchies from Classifiers [12.631679928202516]
ニューラルネットワークからクラス階層を自動的に取得する新しいアルゴリズムを提案する。
我々のアルゴリズムは、よく知られたディープニューラルネットワークモデルに驚くほど優れた階層を生成する。
論文 参考訳(メタデータ) (2021-12-02T13:01:04Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Knowing What to Listen to: Early Attention for Deep Speech
Representation Learning [25.71206255965502]
本稿では,音声信号のためのファイングラファレンス・アーリーアテンション(FEFA)を提案する。
このモデルは、周波数ビンほど小さな情報アイテムに焦点を合わせることができる。
話者認識と音声感情認識の2つの一般的な課題について,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2020-09-03T17:40:27Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - CURE Dataset: Ladder Networks for Audio Event Classification [15.850545634216484]
約300万人が聴覚障害を抱えており、周囲で起きている出来事を認識できない。
本稿では,難聴者に対して最も関連性の高い特定の音声イベントをキュレートしたCUREデータセットを確立する。
論文 参考訳(メタデータ) (2020-01-12T09:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。