論文の概要: Augmented Contrastive Self-Supervised Learning for Audio Invariant
Representations
- arxiv url: http://arxiv.org/abs/2112.10950v1
- Date: Tue, 21 Dec 2021 02:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 15:34:25.973732
- Title: Augmented Contrastive Self-Supervised Learning for Audio Invariant
Representations
- Title(参考訳): 音響不変表現のための拡張コントラスト自己教師付き学習
- Authors: Melikasadat Emami, Dung Tran, Kazuhito Koishida
- Abstract要約: ラベルのないデータから不変表現を学習するための拡張コントラスト型SSLフレームワークを提案する。
提案手法はラベルのない入力データに様々な摂動を適用し,コントラスト学習を用いて,そのような摂動に頑健な表現を学習する。
- 参考スコア(独自算出の注目度): 28.511060004984895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving generalization is a major challenge in audio classification due to
labeled data scarcity. Self-supervised learning (SSL) methods tackle this by
leveraging unlabeled data to learn useful features for downstream
classification tasks. In this work, we propose an augmented contrastive SSL
framework to learn invariant representations from unlabeled data. Our method
applies various perturbations to the unlabeled input data and utilizes
contrastive learning to learn representations robust to such perturbations.
Experimental results on the Audioset and DESED datasets show that our framework
significantly outperforms state-of-the-art SSL and supervised learning methods
on sound/event classification tasks.
- Abstract(参考訳): ラベル付きデータ不足による音声分類において、一般化の改善は大きな課題である。
自己教師付き学習(SSL)メソッドは、ラベルのないデータを活用して、下流の分類タスクに有用な機能を学ぶ。
本研究では,ラベルのないデータから不変表現を学習するための拡張コントラスト型SSLフレームワークを提案する。
提案手法はラベルのない入力データに様々な摂動を適用し,コントラスト学習を用いて,そのような摂動に頑健な表現を学習する。
オーディオセットとDESEDデータセットによる実験結果から,我々のフレームワークは最先端のSSLと教師あり学習法を音響・音響分類タスクで著しく上回ることがわかった。
関連論文リスト
- DIDA: Denoised Imitation Learning based on Domain Adaptation [28.36684781402964]
ノイズのあるデータから学習するためには、模倣者が必要とされるLND(Learning from Noisy Demonstrations)の問題に焦点を当てる。
本稿では、雑音レベルと専門知識レベルを区別する2つの識別器を設計する、ドメイン適応(DIDA)に基づくDenoized Imitation Learningを提案する。
MuJoCoの実験結果は、DIDAが様々な種類のノイズを持つデモから挑戦的な模倣タスクをうまく処理できることを示した。
論文 参考訳(メタデータ) (2024-04-04T11:29:05Z) - Self-Supervised Learning for Anomalous Sound Detection [0.43512163406551996]
State-of-the-art anomalous Sound Detection (ASD) システムは、しばしば埋め込み空間を学習するために補助的な分類タスクを用いて訓練される。
DCASE2023 ASDデータセットの新たな最先端パフォーマンスが得られ、このデータセット上の他のすべての公開結果よりも大きなマージンでパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-12-15T07:16:12Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Channel-Wise Contrastive Learning for Learning with Noisy Labels [60.46434734808148]
チャネルワイド・コントラッシブ・ラーニング(CWCL)を導入し,真正なラベル情報とノイズを区別する。
従来のインスタンス単位のコントラスト学習(IWCL)とは異なり、CWCLはよりニュアンスでレジリエントな特徴を真のラベルと一致させる傾向にある。
まずCWCLを用いて、クリーンにラベル付けされたサンプルを識別し、次に、これらのサンプルを段階的に微調整する。
論文 参考訳(メタデータ) (2023-08-14T06:04:50Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - More Speaking or More Speakers? [17.143456510764576]
自己学習(ST)と自己教師型学習(SSL)の手法は、音声認識(ASR)の大幅な改善を証明している。
本研究では、最近のSSLアルゴリズム(wav2vec 2.0)と最近のSTアルゴリズム(slimIPL)に対するトレーニングデータにおける話者数の影響を分析することを目的とする。
以上の結果から, SSL は精度の高いデータを生成するために大量のラベル付きデータを必要とするが, ST はラベル付きデータ, 特に低登録環境では十分な数の話者を必要とすることが示唆された。
論文 参考訳(メタデータ) (2022-11-02T03:50:40Z) - Representation Learning for the Automatic Indexing of Sound Effects
Libraries [79.68916470119743]
タスク固有のがデータセットに依存しない表現は、クラス不均衡、一貫性のないクラスラベル、不十分なデータセットサイズなどのデータ問題にうまく対処できることを示す。
詳細な実験結果は、メトリック学習アプローチと異なるデータセット間の学習方法が表現効率に与える影響を示している。
論文 参考訳(メタデータ) (2022-08-18T23:46:13Z) - Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of
Semi-Supervised Learning and Active Learning [60.26659373318915]
アクティブラーニング(AL)と半教師付きラーニング(SSL)は2つの効果があるが、しばしば孤立している。
本稿では、SSL-ALの潜在的な優位性をさらに調査するために、革新的な一貫性に基づく仮想aDvErialアルゴリズムを提案する。
2つの実世界のケーススタディは、提案したデータサンプリングアルゴリズムの適用と展開の実践的な産業価値を可視化する。
論文 参考訳(メタデータ) (2022-06-07T13:28:43Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Unsupervised Contrastive Learning of Sound Event Representations [30.914808451327403]
自己教師付き表現学習は、手動でラベル付けされたデータはほとんどないがラベル付けされていないデータで、認識タスクの制限を軽減することができる。
本研究では,音声イベント表現を学習する手段として,教師なしのコントラスト学習を検討する。
その結果、教師なしのコントラスト事前学習は、データ不足の影響を軽減し、ノイズラベルに対するロバスト性を高めることが示唆された。
論文 参考訳(メタデータ) (2020-11-15T19:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。