論文の概要: TRILLsson: Distilled Universal Paralinguistic Speech Representations
- arxiv url: http://arxiv.org/abs/2203.00236v1
- Date: Tue, 1 Mar 2022 05:22:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 21:53:13.962951
- Title: TRILLsson: Distilled Universal Paralinguistic Speech Representations
- Title(参考訳): TRILLsson: 拡張ユニバーサルパラ言語音声表現
- Authors: Joel Shor, Subhashini Venugopalan
- Abstract要約: 我々は,比較的小さく,最先端の性能に近いパラ言語的音声モデルのコレクションをリリースする。
我々のアプローチは知識蒸留に基づいており、我々のモデルは公開データのみに基づいて蒸留されている。
- 参考スコア(独自算出の注目度): 9.449800575171997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in self-supervision have dramatically improved the quality of
speech representations. However, deployment of state-of-the-art embedding
models on devices has been restricted due to their limited public availability
and large resource footprint. Our work addresses these issues by publicly
releasing a collection of paralinguistic speech models that are small and near
state-of-the-art performance. Our approach is based on knowledge distillation,
and our models are distilled on public data only. We explore different
architectures and thoroughly evaluate our models on the Non-Semantic Speech
(NOSS) benchmark. Our largest distilled model is less than 15% the size of the
original model (314MB vs 2.2GB), achieves over 96% the accuracy on 6 of 7
tasks, and is trained on 6.5% the data. The smallest model is 1% in size (22MB)
and achieves over 90% the accuracy on 6 of 7 tasks. Our models outperform the
open source Wav2Vec 2.0 model on 6 of 7 tasks, and our smallest model
outperforms the open source Wav2Vec 2.0 on both emotion recognition tasks
despite being 7% the size.
- Abstract(参考訳): 最近の自己スーパービジョンの進歩は、音声表現の質を劇的に改善した。
しかし、現在最先端の組み込みモデルのデバイスへの展開は、公開可用性の制限とリソースフットプリントの増大により制限されている。
我々の研究はこれらの問題に対処し、小規模で最先端の性能に近いパラ言語的音声モデルの集合を公開している。
我々のアプローチは知識蒸留に基づいており、モデルは公開データのみに蒸留される。
異なるアーキテクチャを探索し、非意味的音声(NOSS)ベンチマークでモデルを徹底的に評価する。
私たちの最大の蒸留モデルは、オリジナルのモデル(314mb対2.2gb)の15%以下で、7つのタスクのうち6つで96%以上の精度を達成し、データを6.5%でトレーニングしています。
最小モデルのサイズは1%(22MB)で、7つのタスクのうちの6つで90%以上の精度を達成する。
我々のモデルは7つのタスクのうち6つでオープンソースのWav2Vec 2.0モデルより優れており、最小のモデルは7%のサイズのにも関わらず、両方の感情認識タスクでオープンソースのWav2Vec 2.0より優れています。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models [146.18107944503436]
Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。
私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。
近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
論文 参考訳(メタデータ) (2024-09-25T17:59:51Z) - To Distill or Not to Distill? On the Robustness of Robust Knowledge Distillation [16.655022975392992]
現在の多言語ASRモデルは計算集約的であり、適切な総合的な評価を欠いている。
我々は、大きな教師モデルからより効率的なより小さな学生の変種に知識を蒸留する。
最もよく蒸留されたモデル全体の性能(45.0$% WER)は、SoTAモデルの2倍の大きさである。
論文 参考訳(メタデータ) (2024-06-06T21:11:53Z) - Digits micro-model for accurate and secure transactions [0.5999777817331317]
より小型の「マイクロ」音声認識モデルの可能性を強調した。
大きな音声認識モデルとは異なり、マイクロモデルは慎重に選択され、キュレートされたデータセットで訓練される。
我々の研究は、ドメイン固有のASRモデル、数値認識精度の向上、データのプライバシーに寄与する。
論文 参考訳(メタデータ) (2024-02-02T22:01:27Z) - SparseVSR: Lightweight and Noise Robust Visual Speech Recognition [100.43280310123784]
我々は,高密度モデルよりも高い性能を実現する軽量モデルを生成する。
その結果,疎結合ネットワークは高密度ネットワークよりもノイズに耐性があることが確認された。
論文 参考訳(メタデータ) (2023-07-10T13:34:13Z) - Task-Agnostic Structured Pruning of Speech Representation Models [18.555223754089905]
性能劣化を補うための微粒なアテンションヘッドプルーニング法を提案する。
SUPERBベンチマーク実験により,複数のタスクで高密度モデルに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2023-06-02T09:11:06Z) - Robust Speech Recognition via Large-Scale Weak Supervision [69.63329359286419]
インターネット上での大量の音声の書き起こしを単純に予測するために訓練された音声処理システムの能力について検討する。
マルチランガルとマルチタスクの監視を680,000時間にスケールすると、結果は標準ベンチマークによく当てはまる。
私たちは、堅牢な音声処理のさらなる研究の基盤となるために、モデルと推論コードをリリースしています。
論文 参考訳(メタデータ) (2022-12-06T18:46:04Z) - Application of Knowledge Distillation to Multi-task Speech
Representation Learning [2.0908300719428228]
音声表現学習モデルは多数のパラメータを使用し、最小のバージョンは95万のパラメータを持つ。
本稿では,知識蒸留の音声表現学習モデルへの適用と微調整について検討する。
その結果,0.1%の精度と0.9%の誤り率低下に悩まされる一方,モデルサイズが75%近く減少することがわかった。
論文 参考訳(メタデータ) (2022-10-29T14:22:43Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - Scaling ASR Improves Zero and Few Shot Learning [23.896440724468246]
大規模データセットでもっとも有用なサンプルを見つけるために,トレーニングデータを効率的にスケールするためのデータ選択手法を提案する。
1-10Bパラメータのユニバーサル英語ASRモデルを訓練することにより、音声認識性能の限界を多くの領域に広げる。
脳損傷による障害のある話者に対して、私たちの最高のゼロショットモデルと少数ショットモデルは、それぞれAphasiaBankテストセットで22%と60%の相対的な改善を達成しています。
論文 参考訳(メタデータ) (2021-11-10T21:18:59Z) - Knowledge distillation: A good teacher is patient and consistent [71.14922743774864]
最先端のパフォーマンスを実現する大規模モデルと、実用的な用途で手頃な価格のモデルとの間には、コンピュータビジョンの相違が増えている。
蒸留の有効性に大きな影響を及ぼす可能性のある,特定の暗黙的な設計選択を同定する。
ImageNetの最先端ResNet-50モデルが82.8%の精度で実現されている。
論文 参考訳(メタデータ) (2021-06-09T17:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。