論文の概要: MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models
- arxiv url: http://arxiv.org/abs/2305.19011v3
- Date: Tue, 14 Nov 2023 21:22:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 20:27:11.255985
- Title: MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models
- Title(参考訳): MiniSUPERB:自己教師型音声モデルの軽量ベンチマーク
- Authors: Yu-Hsiang Wang, Huang-Yu Chen, Kai-Wei Chang, Winston Hsu, Hung-yi Lee
- Abstract要約: SuperBは自己教師付き学習(SSL)音声モデルの様々なタスクにおける一般化性を評価するために提案された。
SuperBは大規模なデータセットと多様なタスクのために高い計算コストを発生させる。
我々は,SUPERBに匹敵する結果のSSL音声モデルを効率よく評価する軽量ベンチマークであるMiniSUPERBを紹介する。
- 参考スコア(独自算出の注目度): 90.99663022952498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SUPERB was proposed to evaluate the generalizability of self-supervised
learning (SSL) speech models across various tasks. However, it incurs high
computational costs due to the large datasets and diverse tasks. In this paper,
we introduce MiniSUPERB, a lightweight benchmark that efficiently evaluates SSL
speech models with comparable results to SUPERB but lower computational costs
significantly. We carefully select representative tasks, sample datasets, and
extract model representations offline. Our approach achieves a Spearman's rank
correlation of 0.954 and 0.982 with SUPERB Paper and SUPERB Challenge,
respectively. Additionally, we reduce the computational cost by 97% in terms of
Multiply-ACcumulate operations (MACs). Furthermore, we evaluate SSL speech
models in few-shot scenarios and observe significant variations in their
performance. To our knowledge, this is the first study to examine both the
computational cost of the model itself and the cost of evaluating it on a
benchmark.
- Abstract(参考訳): 自己教師付き学習(SSL)音声モデルの汎用性を評価するために,SUPERBを提案する。
しかし、大きなデータセットと多様なタスクのために高い計算コストが発生する。
本稿では,超高速だが計算コストは著しく低いssl音声モデルを効率的に評価する軽量ベンチマークであるminisuperbを提案する。
代表タスク、サンプルデータセットを慎重に選択し、オフラインでモデル表現を抽出する。
提案手法は, SUPERB Paper と SUPERB Challenge でそれぞれ 0.954 と 0.982 のSpearman のランク相関を達成している。
さらに,乗算積演算(MAC)の計算コストを97%削減する。
さらに,SSL音声モデルを数ショットのシナリオで評価し,その性能に有意な変動を観測する。
我々の知る限り、これはモデル自体の計算コストとベンチマークで評価するコストの両方を調査する最初の研究である。
関連論文リスト
- OrchestraLLM: Efficient Orchestration of Language Models for Dialogue
State Tracking [18.047158624848546]
大規模言語モデル (LLM) は自然言語処理システムの状況に革命をもたらしたが、計算コストは高い。
従来,Small Language Models (SLMs) の可能性を,大規模言語に対する費用対効果の代替手段として活用するための様々なアプローチが検討されてきた。
本研究では,計算効率の向上とタスク性能の向上を目的とした新しいSLM/LLMルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:30:55Z) - How to Estimate Model Transferability of Pre-Trained Speech Models? [84.11085139766108]
事前学習音声モデルの伝達可能性推定のためのスコアベースアセスメントフレームワーク
ベイズ確率推定と最適輸送という2つの表現理論を利用して、PSM候補のランクスコアを生成する。
本フレームワークは,候補モデルやレイヤを実際に微調整することなく,転送可能性スコアを効率的に計算する。
論文 参考訳(メタデータ) (2023-06-01T04:52:26Z) - A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on
Chinese Instruction Data for Instruction Following Large Language Model [8.21938165599387]
基礎モデルの選択、トレーニングデータセットのスケール、学習可能なパラメータ量、モデルのトレーニングコストは、すべて重要な要素である。
論文の結果の再現を容易にするため、データセット、モデル、コードを公開します。
論文 参考訳(メタデータ) (2023-04-17T09:36:36Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - Application of Knowledge Distillation to Multi-task Speech
Representation Learning [2.0908300719428228]
音声表現学習モデルは多数のパラメータを使用し、最小のバージョンは95万のパラメータを持つ。
本稿では,知識蒸留の音声表現学習モデルへの適用と微調整について検討する。
その結果,0.1%の精度と0.9%の誤り率低下に悩まされる一方,モデルサイズが75%近く減少することがわかった。
論文 参考訳(メタデータ) (2022-10-29T14:22:43Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。
SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。
凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。