論文の概要: SUPERB @ SLT 2022: Challenge on Generalization and Efficiency of
Self-Supervised Speech Representation Learning
- arxiv url: http://arxiv.org/abs/2210.08634v1
- Date: Sun, 16 Oct 2022 20:50:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 20:48:30.005416
- Title: SUPERB @ SLT 2022: Challenge on Generalization and Efficiency of
Self-Supervised Speech Representation Learning
- Title(参考訳): SLT 2022:自己監督型音声表現学習の一般化と効率化への挑戦
- Authors: Tzu-hsun Feng and Annie Dong and Ching-Feng Yeh and Shu-wen Yang and
Tzu-Quan Lin and Jiatong Shi and Kai-Wei Chang and Zili Huang and Haibin Wu
and Xuankai Chang and Shinji Watanabe and Abdelrahman Mohamed and Shang-Wen
Li and Hung-yi Lee
- Abstract要約: SLT 2022において、より優れたパフォーマンス、一般化、効率を実現するために、自己教師付き音声表現を学習することを目的としたSUPERBチャレンジを提示する。
この課題はSUPERBベンチマークに基づいており、自己教師付き学習の要求を測定するために計算メトリクスを実装している。
本論文では,提案した14のモデルの結果を要約する。
- 参考スコア(独自算出の注目度): 110.87495704612158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the SUPERB challenge at SLT 2022, which aims at learning
self-supervised speech representation for better performance, generalization,
and efficiency. The challenge builds upon the SUPERB benchmark and implements
metrics to measure the computation requirements of self-supervised learning
(SSL) representation and to evaluate its generalizability and performance
across the diverse SUPERB tasks. The SUPERB benchmark provides comprehensive
coverage of popular speech processing tasks, from speech and speaker
recognition to audio generation and semantic understanding. As SSL has gained
interest in the speech community and showed promising outcomes, we envision the
challenge to uplevel the impact of SSL techniques by motivating more practical
designs of techniques beyond task performance. We summarize the results of 14
submitted models in this paper. We also discuss the main findings from those
submissions and the future directions of SSL research.
- Abstract(参考訳): SLT 2022において、より優れたパフォーマンス、一般化、効率を実現するために、自己教師付き音声表現を学習することを目的としたSUPERBチャレンジを提示する。
この課題はsuperbベンチマークに基づいており、自己教師付き学習(ssl)表現の計算要件を計測し、その一般化可能性と様々なsuperbタスクにおけるパフォーマンスを評価するためのメトリクスを実装している。
SUPERBベンチマークは、音声認識や話者認識から音声生成や意味理解まで、一般的な音声処理タスクの包括的カバレッジを提供する。
SSLは音声コミュニティへの関心を高め、有望な成果を示したので、タスクパフォーマンスを超えて、より実用的な技術設計を動機付けることによって、SSLテクニックの影響をレベルアップするという課題を思い描いている。
本論文では,提案した14のモデルの結果を要約する。
また、これらの提出による主な発見とSSL研究の今後の方向性についても論じる。
関連論文リスト
- Speech Self-Supervised Representations Benchmarking: a Case for Larger
Probing Heads [32.45539981205672]
自己教師付き学習(SSL)は、ラベルなし音声の大きなデータセットを活用して、注釈付きデータの少ない量で印象的なパフォーマンスを達成する。
本研究では,探索ヘッドアーキテクチャの変化によるベンチマーク結果の影響について検討する。
論文 参考訳(メタデータ) (2023-08-28T09:49:48Z) - Why does Self-Supervised Learning for Speech Recognition Benefit Speaker
Recognition? [86.53044183309824]
話者関連課題における自己教師型学習の成功につながる要因について検討する。
Voxceleb-1データセットにおける実験結果から,SVタスクに対するSSLの利点は,マスクによる予測損失,データスケール,モデルサイズの組み合わせによるものであることが示唆された。
論文 参考訳(メタデータ) (2022-04-27T08:35:57Z) - Audio Self-supervised Learning: A Survey [60.41768569891083]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。
コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理や音声処理の分野で採用されている。
論文 参考訳(メタデータ) (2022-03-02T15:58:29Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。
SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。
凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。