論文の概要: Improving Deep-learning-based Semi-supervised Audio Tagging with Mixup
- arxiv url: http://arxiv.org/abs/2102.08183v1
- Date: Tue, 16 Feb 2021 14:33:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 14:45:51.961800
- Title: Improving Deep-learning-based Semi-supervised Audio Tagging with Mixup
- Title(参考訳): Mixupによる深層学習に基づく半教師付きオーディオタグの改良
- Authors: L\'eo Cances, Etienne Labb\'e, Thomas Pellegrini
- Abstract要約: SSL(Semi-supervised Learning)メソッドは、ラベルのないデータを利用して画像データセットに最先端の結果を提供する。
本稿では,音声タグ付けのタスクに,最近のSSLメソッドを4つ適用した。
- 参考スコア(独自算出の注目度): 2.707154152696381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, semi-supervised learning (SSL) methods, in the framework of deep
learning (DL), have been shown to provide state-of-the-art results on image
datasets by exploiting unlabeled data. Most of the time tested on object
recognition tasks in images, these algorithms are rarely compared when applied
to audio tasks. In this article, we adapted four recent SSL methods to the task
of audio tagging. The first two methods, namely Deep Co-Training (DCT) and Mean
Teacher (MT) involve two collaborative neural networks. The two other
algorithms, called MixMatch (MM) and FixMatch (FM), are single-model methods
that rely primarily on data augmentation strategies. Using the Wide ResNet 28-2
architecture in all our experiments, 10% of labeled data and the remaining 90\%
as unlabeled, we first compare the four methods' accuracy on three standard
benchmark audio event datasets: Environmental Sound Classification (ESC-10),
UrbanSound8K (UBS8K), and Google Speech Commands (GSC). MM and FM outperformed
MT and DCT significantly, MM being the best method in most experiments. On
UBS8K and GSC, in particular, MM achieved 18.02% and 3.25% error rates (ER),
outperforming models trained with 100% of the available labeled data, which
reached 23.29% and 4.94% ER, respectively. Second, we explored the benefits of
using the mixup augmentation in the four algorithms. In almost all cases, mixup
brought significant gains. For instance, on GSC, FM reached 4.44% and 3.31% ER
without and with mixup.
- Abstract(参考訳): 近年,深層学習 (DL) のフレームワークである半教師付き学習 (SSL) 手法が,ラベルのないデータを利用して画像データセットに最先端の成果をもたらすことが示されている。
画像中のオブジェクト認識タスクでテストされる時間のほとんどは、これらのアルゴリズムがオーディオタスクに適用される場合、ほとんど比較されない。
本稿では,音声タグ付けのタスクに,最近のSSLメソッドを4つ適用した。
最初の2つの方法、すなわちディープコトレーニング(dct)と平均教師(mt)は、2つの協調ニューラルネットワークを含む。
MixMatch(MM)とFixMatch(FM)と呼ばれる他の2つのアルゴリズムは、主にデータ拡張戦略に依存する単一モデルメソッドである。
Wide ResNet 28-2アーキテクチャをすべての実験で使用し、ラベル付きデータの10%と残りの90\%をラベルなしとして、まず3つの標準的なベンチマークオーディオイベントデータセット(環境音分類(ESC-10)、UrbanSound8K(UBS8K)、Google Speech Commands(GSC)の4つの方法の精度を比較しました。
MMおよびFMはMTおよびDCTをかなり上回り、MMはほとんどの実験で最もよい方法です。
特にUBS8K と GSC では、MM は 18.02% と 3.25% の誤差率 (ER) を達成し、それぞれ 23.29% と 4.94% に達した。
第2に、4つのアルゴリズムでmixup拡張を使用することの利点について検討した。
ほとんどすべてのケースにおいて、mixupは大きな利益をもたらした。
例えばGSCでは、FMは4.44%、ERは3.31%に達した。
関連論文リスト
- Stuttering Detection Using Speaker Representations and Self-supervised
Contextual Embeddings [7.42741711946564]
本稿では,大規模音声データセットを訓練した事前学習したディープラーニングモデルから抽出した音声埋め込みの適用について紹介する。
限られたSEP-28kデータセットでのみトレーニングされた標準SDシステムと比較して、ベースラインを上回る平均リコール(UAR)で12.08%、28.71%、37.9%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2023-06-01T14:00:47Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Adaptive Few-Shot Learning Algorithm for Rare Sound Event Detection [24.385226516231004]
そこで本研究では,メトリックベースの数ショット学習フレームワークに容易に組み込むことができる新しいタスク適応型モジュールを提案する。
我々のモジュールはベースライン法よりも2つのデータセットの性能をかなり改善します。
論文 参考訳(メタデータ) (2022-05-24T03:13:12Z) - Towards Semi-Supervised Deep Facial Expression Recognition with An
Adaptive Confidence Margin [92.76372026435858]
Ada-CM(Adaptive Confidence Margin)を学習し、ラベルのないすべてのデータを半教師付き深層表情認識に活用する。
すべてのラベルなしサンプルは、信頼スコアと適応的に学習された信頼マージンを比較して、2つのサブセットに分割される。
提案手法は最先端の性能,特に半教師付きベースラインを超越した性能を実現する。
論文 参考訳(メタデータ) (2022-03-23T11:43:29Z) - Robust Segmentation Models using an Uncertainty Slice Sampling Based
Annotation Workflow [5.051373749267151]
本稿では,3次元医療ボリュームのセマンティックセグメンテーションのための不確実スライスサンプリング(USS)戦略を提案する。
多地点データを用いた肝セグメンテーション作業におけるUSSの有効性を示す。
論文 参考訳(メタデータ) (2021-09-30T06:56:11Z) - SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-03-02T18:42:45Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - AlphaMatch: Improving Consistency for Semi-supervised Learning with
Alpha-divergence [44.88886269629515]
半教師付き学習(SSL)は、ラベル付きデータとラベルなしデータの両方を併用することにより、よりデータ効率の高い機械学習への重要なアプローチである。
我々は、データポイントとそれらから派生した拡張データとのラベル一貫性を効率的に強化することにより、データ拡張を利用する効率的なSSL手法であるAlphaMatchを提案する。
論文 参考訳(メタデータ) (2020-11-23T22:43:45Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - iTAML: An Incremental Task-Agnostic Meta-learning Approach [123.10294801296926]
人間は経験が成長するにつれて、新しい知識を継続的に学ぶことができる。
ディープニューラルネットワークにおける以前の学習は、新しいタスクでトレーニングされたときにすぐに消えてしまう可能性がある。
遭遇した全てのタスク間の平衡を維持するために,新しいメタラーニング手法を導入する。
論文 参考訳(メタデータ) (2020-03-25T21:42:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。