論文の概要: SUPERB: Speech processing Universal PERformance Benchmark
- arxiv url: http://arxiv.org/abs/2105.01051v1
- Date: Mon, 3 May 2021 17:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 15:35:52.414482
- Title: SUPERB: Speech processing Universal PERformance Benchmark
- Title(参考訳): SuperPERB: 音声処理ユニバーサルパフォーマンスベンチマーク
- Authors: Shu-wen Yang, Po-Han Chi, Yung-Sung Chuang, Cheng-I Jeff Lai, Kushal
Lakhotia, Yist Y. Lin, Andy T. Liu, Jiatong Shi, Xuankai Chang, Guan-Ting
Lin, Tzu-Hsien Huang, Wei-Cheng Tseng, Ko-tik Lee, Da-Rong Liu, Zili Huang,
Shuyan Dong, Shang-Wen Li, Shinji Watanabe, Abdelrahman Mohamed, Hung-yi Lee
- Abstract要約: 自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。
SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。
凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
- 参考スコア(独自算出の注目度): 78.41287216481203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) has proven vital for advancing research in
natural language processing (NLP) and computer vision (CV). The paradigm
pretrains a shared model on large volumes of unlabeled data and achieves
state-of-the-art (SOTA) for various tasks with minimal adaptation. However, the
speech processing community lacks a similar setup to systematically explore the
paradigm. To bridge this gap, we introduce Speech processing Universal
PERformance Benchmark (SUPERB). SUPERB is a leaderboard to benchmark the
performance of a shared model across a wide range of speech processing tasks
with minimal architecture changes and labeled data. Among multiple usages of
the shared model, we especially focus on extracting the representation learned
from SSL due to its preferable re-usability. We present a simple framework to
solve SUPERB tasks by learning task-specialized lightweight prediction heads on
top of the frozen shared model. Our results demonstrate that the framework is
promising as SSL representations show competitive generalizability and
accessibility across SUPERB tasks. We release SUPERB as a challenge with a
leaderboard and a benchmark toolkit to fuel the research in representation
learning and general speech processing.
- Abstract(参考訳): 自己教師付き学習(ssl)は自然言語処理(nlp)とコンピュータビジョン(cv)の研究を進める上で不可欠である。
このパラダイムは、ラベルのない大量のデータに対して共有モデルを事前訓練し、最小限の適応で様々なタスクに対して最先端(SOTA)を達成する。
しかし、音声処理コミュニティは、体系的にパラダイムを探求するのと同様の仕組みを欠いている。
このギャップを埋めるために,音声処理ユニバーサルパフォーマンスベンチマーク(superb)を提案する。
SUPERBは、最小限のアーキテクチャ変更とラベル付きデータを持つ幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするリーダーボードである。
共有モデルの複数の使用例の中で、特に好適な再利用性のためにSSLから学んだ表現の抽出に重点を置いている。
凍結した共有モデル上でタスク特化軽量予測ヘッドを学習することにより,SUPERBタスクを解決するための簡単なフレームワークを提案する。
SSL表現は SUPERB タスク間の競合する一般化性とアクセシビリティを示すため,本フレームワークは有望であることを示す。
我々は,表象学習と一般音声処理の研究を促進させるために,リーダボードとベンチマークツールキットによる課題としてsuperbをリリースする。
関連論文リスト
- A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - ML-SUPERB: Multilingual Speech Universal PERformance Benchmark [73.65853301350042]
音声処理Universal PERformance Benchmark (SUPERB) は、音声処理タスクにおける自己監督学習(SSL)モデルの性能をベンチマークするためのリーダーボードである。
本稿では,言語認識と言語識別の両方を考慮した多言語SUPERBを提案する。
SUPERBベンチマークと同様、音声SSLモデルはFBANKよりも性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-05-18T00:01:27Z) - Seeing What You Miss: Vision-Language Pre-training with Semantic
Completion Learning [22.464424641734652]
クロスモーダルアライメントは視覚言語事前学習モデルに不可欠である。
本研究では,グローバル・ローカル・アライメントを支援するセマンティック・コンプリート学習タスクを提案する。
また、フレキシブル・ビジョン・エンコーダを導入し、画像テキストとビデオテキストのマルチモーダルタスクを同時に実行できるようにした。
論文 参考訳(メタデータ) (2022-11-24T06:39:16Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。