論文の概要: A Sequential Self Teaching Approach for Improving Generalization in
Sound Event Recognition
- arxiv url: http://arxiv.org/abs/2007.00144v1
- Date: Tue, 30 Jun 2020 22:53:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 06:37:35.658364
- Title: A Sequential Self Teaching Approach for Improving Generalization in
Sound Event Recognition
- Title(参考訳): 音響イベント認識における一般化のための逐次自己指導手法
- Authors: Anurag Kumar, Vamsi Krishna Ithapu
- Abstract要約: 学習音に対する逐次自己学習手法を提案する。
弱いラベル付きまたは/またはうるさいラベル付きデータから、悪い状況下での音の学習は困難である。
提案手法は,与えられたモデリングシステムの一般化能力を向上する逐次段階学習プロセスである。
- 参考スコア(独自算出の注目度): 11.559570255513217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An important problem in machine auditory perception is to recognize and
detect sound events. In this paper, we propose a sequential self-teaching
approach to learning sounds. Our main proposition is that it is harder to learn
sounds in adverse situations such as from weakly labeled and/or noisy labeled
data, and in these situations a single stage of learning is not sufficient. Our
proposal is a sequential stage-wise learning process that improves
generalization capabilities of a given modeling system. We justify this method
via technical results and on Audioset, the largest sound events dataset, our
sequential learning approach can lead to up to 9% improvement in performance. A
comprehensive evaluation also shows that the method leads to improved
transferability of knowledge from previously trained models, thereby leading to
improved generalization capabilities on transfer learning tasks.
- Abstract(参考訳): 機械の聴覚知覚における重要な問題は、音事象を認識して検出することである。
本稿では,学習音に対する逐次自己学習手法を提案する。
我々の主な提案は、弱いラベル付きまたは/またはうるさいラベル付きデータから、悪い状況下での音の学習が困難であり、これらの場合、学習の単一の段階が不十分であるということである。
本提案は,与えられたモデリングシステムの一般化能力を向上させる段階学習プロセスである。
技術的結果を通じてこの方法を正当化し、最大のサウンドイベントデータセットであるaudiosetでは、シーケンシャルな学習アプローチが最大9%のパフォーマンス向上につながります。
包括的評価により,従来訓練されていたモデルから知識の伝達性の向上が達成され,伝達学習タスクにおける一般化能力の向上がもたらされた。
関連論文リスト
- EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning [36.012107899738524]
音声・視覚のコントラスト学習に等価性を利用する新しいフレームワークであるEquiAVを紹介する。
我々のアプローチは、共有注意に基づく変換予測器によって促進される音声視覚学習への同値性の拡張から始まる。
多様な拡張から代表的な埋め込みへの機能の集約を可能にし、堅牢な監視を可能にします。
論文 参考訳(メタデータ) (2024-03-14T15:44:19Z) - Audio Contrastive based Fine-tuning [21.145936249583446]
本稿では,音声コントラストに基づくファインチューニング(AudioConFit)を,頑健な汎用性を特徴とする効率的なアプローチとして紹介する。
様々な音声分類タスクに関する実証実験により,提案手法の有効性とロバスト性を実証した。
論文 参考訳(メタデータ) (2023-09-21T08:59:13Z) - Pretraining Representations for Bioacoustic Few-shot Detection using
Supervised Contrastive Learning [10.395255631261458]
バイオ音響応用において、ほとんどのタスクにはラベル付きトレーニングデータはほとんど含まれない。
教師付きコントラスト学習フレームワークを用いてデータ拡張を活用することにより、スクラッチからリッチな特徴抽出器を学習することができることを示す。
我々は検証セットで63.46%、テストセットで42.7%のFスコアを取得し、DCASEチャレンジで2位となった。
論文 参考訳(メタデータ) (2023-09-02T09:38:55Z) - Isolation and Impartial Aggregation: A Paradigm of Incremental Learning
without Interference [61.11137714507445]
本稿では,インクリメンタルラーニングの段階におけるパフォーマンスの不均衡について論じる。
ステージアイソレーションに基づくインクリメンタルラーニングフレームワークを提案する。
提案手法を4つの大規模ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-11-29T06:57:48Z) - Improving Natural-Language-based Audio Retrieval with Transfer Learning
and Audio & Text Augmentations [7.817685358710508]
本稿では,録音やテキストによる記述を共有音声空間に投影するシステムを提案する。
以上の結果から, 使用済み拡張戦略は過剰適合を低減し, 検索性能の向上を図っている。
さらに、AudioCapsデータセットで事前トレーニングを行うことで、さらなる改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-08-24T11:54:42Z) - Label-Efficient Self-Supervised Speaker Verification With Information
Maximization and Contrastive Learning [0.0]
生音声から直接表現を学習することによる話者検証のための自己教師型学習について検討する。
我々のアプローチは、最近の情報学習フレームワークと集中的なデータ前処理ステップに基づいています。
論文 参考訳(メタデータ) (2022-07-12T13:01:55Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z) - Learning Not to Learn in the Presence of Noisy Labels [104.7655376309784]
ギャンブラーの損失と呼ばれる新しい種類の損失関数は、様々なレベルの汚職にまたがってノイズをラベル付けするのに強い堅牢性をもたらすことを示す。
この損失関数によるトレーニングは、ノイズのあるラベルを持つデータポイントでの学習を"維持"することをモデルに促すことを示す。
論文 参考訳(メタデータ) (2020-02-16T09:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。