論文の概要: Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks
- arxiv url: http://arxiv.org/abs/2110.07313v1
- Date: Thu, 14 Oct 2021 12:32:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 15:27:50.495175
- Title: Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks
- Title(参考訳): 非音声タスクのためのコンフォーメータ型自己教師付き学習
- Authors: Sangeeta Srivastava, Yun Wang, Andros Tjandra, Anurag Kumar, Chunxi
Liu, Kritika Singh, Yatharth Saraf
- Abstract要約: 本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
- 参考スコア(独自算出の注目度): 20.316239155843963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representation learning from unlabeled data has been of major interest in
artificial intelligence research. While self-supervised speech representation
learning has been popular in the speech research community, very few works have
comprehensively analyzed audio representation learning for non-speech audio
tasks. In this paper, we propose a self-supervised audio representation
learning method and apply it to a variety of downstream non-speech audio tasks.
We combine the well-known wav2vec 2.0 framework, which has shown success in
self-supervised learning for speech tasks, with parameter-efficient conformer
architectures. On the AudioSet benchmark, we achieve a mean average precision
(mAP) score of 0.415, which is a new state-of-the-art on this dataset through
audio-only self-supervised learning. Our fine-tuned conformers also surpass or
match the performance of previous systems pre-trained in a supervised way on
several downstream tasks. We further discuss the important design
considerations for both pre-training and fine-tuning.
- Abstract(参考訳): ラベルのないデータからの表現学習は、人工知能研究において大きな関心を集めている。
音声研究コミュニティでは自己指導型音声表現学習が普及しているが,非音声音声タスクにおける音声表現学習を包括的に分析する研究はほとんどない。
本稿では,自己教師型音声表現学習法を提案し,それを下流の音声非音声タスクに適用する。
音声タスクの自己教師あり学習とパラメータ効率のよいコンフォーメータアーキテクチャに成功をおさめた,有名なwav2vec 2.0フレームワークを組み合わせる。
オーディオセットベンチマークでは、平均平均精度(map)スコアが0.415となり、これは音声のみの自己教師付き学習を通じて、このデータセットの最先端技術である。
我々の微調整コンバータは、いくつかの下流タスクにおいて教師付き方式で事前訓練された以前のシステムの性能を上回るか、一致します。
さらに、事前学習と微調整の両方において重要な設計上の考慮事項について論じる。
関連論文リスト
- AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文 参考訳(メタデータ) (2021-10-19T07:58:28Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Multi-task Voice-Activated Framework using Self-supervised Learning [0.9864260997723973]
wav2vec 2.0のような自己教師型学習手法は、未ラベルおよび未転写音声データから音声表現を学習する上で有望な結果を示している。
本稿では,様々な音声アクティベートタスクに対して,事前学習したwav2vec 2.0モデルを適用するための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T19:28:57Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。