論文の概要: EasyASR: A Distributed Machine Learning Platform for End-to-end
Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2009.06487v2
- Date: Sat, 24 Oct 2020 09:44:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 11:13:43.449742
- Title: EasyASR: A Distributed Machine Learning Platform for End-to-end
Automatic Speech Recognition
- Title(参考訳): EasyASR: エンドツーエンドの自動音声認識のための分散機械学習プラットフォーム
- Authors: Chengyu Wang, Mengli Cheng, Xu Hu, Jun Huang
- Abstract要約: EasyASRは、大規模自動音声認識(ASR)モデルをトレーニングし、提供する分散機械学習プラットフォームである。
私たちのプラットフォームはAlibaba CloudのAIのための機械学習プラットフォーム上に構築されています。
- 参考スコア(独自算出の注目度): 12.875944252531566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present EasyASR, a distributed machine learning platform for training and
serving large-scale Automatic Speech Recognition (ASR) models, as well as
collecting and processing audio data at scale. Our platform is built upon the
Machine Learning Platform for AI of Alibaba Cloud. Its main functionality is to
support efficient learning and inference for end-to-end ASR models on
distributed GPU clusters. It allows users to learn ASR models with either
pre-defined or user-customized network architectures via simple user interface.
On EasyASR, we have produced state-of-the-art results over several public
datasets for Mandarin speech recognition.
- Abstract(参考訳): 本稿では,大規模音声認識(ASR)モデルの学習と提供を行う分散機械学習プラットフォームであるEasyASRについて述べる。
私たちのプラットフォームはAlibaba CloudのAIのための機械学習プラットフォーム上に構築されています。
その主な機能は、分散GPUクラスタ上のエンドツーエンドのASRモデルの効率的な学習と推論をサポートすることである。
ユーザーはシンプルなユーザーインターフェイスを通じて、事前に定義されたまたはユーザカスタマイズされたネットワークアーキテクチャでASRモデルを学習することができる。
easyasrでは,マンダリン音声認識のための公開データセットで最新の結果が得られた。
関連論文リスト
- ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models [51.35570730554632]
ESPnet-SPKは、話者埋め込み抽出器を訓練するためのツールキットである。
我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。
開発モデルと他のドメインとの橋渡しも目指しています。
論文 参考訳(メタデータ) (2024-01-30T18:18:27Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - DinoSR: Self-Distillation and Online Clustering for Self-supervised
Speech Representation Learning [140.96990096377127]
自己教師型音声表現学習(DinoSR)のための自己蒸留とオンラインクラスタリングを導入する。
DinoSRはまず、入力されたオーディオから教師ネットワークにコンテキスト化された埋め込みを抽出し、埋め込み上にオンラインクラスタリングシステムを実行して、マシンが発見した携帯電話の在庫を出力し、最後に、識別トークンを使用して学生ネットワークを誘導する。
本稿では,DinoSRが複数の下流タスクにおいて過去の最先端性能を上回ることを示し,モデルと学習した離散単位の詳細な解析を行う。
論文 参考訳(メタデータ) (2023-05-17T07:23:46Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Knowledge Transfer For On-Device Speech Emotion Recognition with Neural
Structured Learning [19.220263739291685]
音声感情認識(SER)は、ヒューマン・コンピュータ・インタラクション(HCI)において人気のある研究トピックである。
合成グラフ構築によるニューラル構造化学習(NSL)フレームワークを提案する。
実験の結果,音声サンプルとグラフを用いた軽量SERモデルの訓練は,小さなSERモデルを生成するだけでなく,モデル性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-10-26T18:38:42Z) - A baseline model for computationally inexpensive speech recognition for
Kazakh using the Coqui STT framework [0.0]
我々は,Coqui STTフレームワークを用いて,新しいベースライン音響モデルと3つの言語モデルを訓練する。
結果は有望に見えるが、実運用レベルの精度に到達するには、トレーニングとパラメータスイープのさらなるエポックが必要である。
論文 参考訳(メタデータ) (2021-07-19T14:17:42Z) - Fedlearn-Algo: A flexible open-source privacy-preserving machine
learning platform [15.198116661595487]
オープンソースプライバシ保護機械学習プラットフォームであるFedlearn-Algoを紹介します。
このプラットフォームを使って、プライバシー保護機械学習アルゴリズムの研究と開発結果を実証しています。
論文 参考訳(メタデータ) (2021-07-08T21:59:56Z) - SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。
SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。
凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:51:09Z) - Weakly Supervised Construction of ASR Systems with Massive Video Data [18.5050375783871]
本稿では,大容量ビデオデータを用いたASRシステム構築のための弱教師付きフレームワークを提案する。
光文字認識(OCR)に基づく映像から高音質音声をテキストに整合して抽出する効果的な手法を提案する。
本フレームワークは,マンダリン音声認識のための6つの公開データセットに対して,最先端の結果を容易に生成することができる。
論文 参考訳(メタデータ) (2020-08-04T03:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。