論文の概要: FunASR: A Fundamental End-to-End Speech Recognition Toolkit
- arxiv url: http://arxiv.org/abs/2305.11013v1
- Date: Thu, 18 May 2023 14:45:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 14:48:43.166847
- Title: FunASR: A Fundamental End-to-End Speech Recognition Toolkit
- Title(参考訳): FunASR: エンドツーエンド音声認識ツールキット
- Authors: Zhifu Gao, Zerui Li, Jiaming Wang, Haoneng Luo, Xian Shi, Mengzhe
Chen, Yabin Li, Lingyun Zuo, Zhihao Du, Zhangyu Xiao, Shiliang Zhang
- Abstract要約: FunASRは、学術研究と産業応用のギャップを埋めるために設計されたオープンソースの音声認識ツールキットである。
FunASRは、大規模産業コーパスでトレーニングされたモデルと、それらをアプリケーションにデプロイする機能を提供する。
- 参考スコア(独自算出の注目度): 34.69774812281273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces FunASR, an open-source speech recognition toolkit
designed to bridge the gap between academic research and industrial
applications. FunASR offers models trained on large-scale industrial corpora
and the ability to deploy them in applications. The toolkit's flagship model,
Paraformer, is a non-autoregressive end-to-end speech recognition model that
has been trained on a manually annotated Mandarin speech recognition dataset
that contains 60,000 hours of speech. To improve the performance of Paraformer,
we have added timestamp prediction and hotword customization capabilities to
the standard Paraformer backbone. In addition, to facilitate model deployment,
we have open-sourced a voice activity detection model based on the Feedforward
Sequential Memory Network (FSMN-VAD) and a text post-processing punctuation
model based on the controllable time-delay Transformer (CT-Transformer), both
of which were trained on industrial corpora. These functional modules provide a
solid foundation for building high-precision long audio speech recognition
services. Compared to other models trained on open datasets, Paraformer
demonstrates superior performance.
- Abstract(参考訳): 本稿では,学術研究と産業応用のギャップを埋めるためのオープンソースの音声認識ツールキットであるFunASRを紹介する。
funasrは大規模産業コーパスで訓練されたモデルを提供し、それらをアプリケーションにデプロイする機能を提供する。
ツールキットのフラッグシップモデルであるParaformerは、自動回帰的なエンドツーエンド音声認識モデルであり、6万時間の音声を含む手動注釈付きマンダリン音声認識データセットで訓練されている。
Paraformerの性能を改善するために、標準のParaformerバックボーンにタイムスタンプ予測とホットワードカスタマイズ機能を追加しました。
さらに,モデル展開を容易にするために,feedforward sequential memory network (fsmn-vad) に基づく音声活動検出モデルと,産業用コーパスを用いた制御可能なtime-delay transformer (ct-transformer) に基づくテキスト後処理句読点モデルをオープンソース化した。
これらの機能モジュールは、高精度の長い音声音声認識サービスを構築するための確かな基盤を提供する。
オープンデータセットでトレーニングされた他のモデルと比較して、Paraformerは優れたパフォーマンスを示している。
関連論文リスト
- Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Feature Normalization for Fine-tuning Self-Supervised Models in Speech
Enhancement [19.632358491434697]
自己教師付き学習を用いて訓練された大規模で事前訓練された表現モデルは、機械学習の様々な分野で人気を集めている。
本稿では,下流音声強調タスクにおける事前学習音声表現モデルの有用性について検討する。
提案手法は, 各種事前学習音声モデルと組み合わせることで, ベースラインと比較して, 音声品質を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-06-14T10:03:33Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Visual Speech Recognition for Multiple Languages in the Wild [64.52593130370757]
より優れたVSRモデルを設計することが、より大きなトレーニングセットを使用する上でも同様に重要であることを示す。
VSRモデルに予測に基づく補助タスクを追加することを提案する。
このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2022-02-26T07:21:00Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Investigation of Speaker-adaptation methods in Transformer based ASR [8.637110868126548]
本稿では,トランスフォーマモデルを用いて音声認識性能の向上を図りながら,エンコーダ入力に話者情報を組み込む方法について検討する。
話者情報を各話者に対する話者埋め込み形式で提示する。
モデルに話者埋め込みを組み込むことにより,ベースライン上の単語誤り率を改善する。
論文 参考訳(メタデータ) (2020-08-07T16:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。